纳什均衡(Nash equilibrium)及经典案例

最新推荐文章于 2025-03-18 13:43:04 发布

Briwisdom

最新推荐文章于 2025-03-18 13:43:04 发布

阅读量7.7w

点赞数 50

分类专栏：有趣的智力问题/悖论/哲学文章标签：囚徒困境硬币正反饿狮博弈智猪博弈

本文链接：https://blog.csdn.net/u010420283/article/details/83927742

版权

有趣的智力问题/悖论/哲学专栏收录该内容

4 篇文章

订阅专栏

纳什均衡（Nash equilibrium），又称为非合作博弈均衡，是博弈论的一个重要策略组合，以约翰·纳什命名。

纳什均衡是指博弈中这样的局面，对于每个参与者来说，只要其他人不改变策略，他就无法改善自己的状况。纳什证明了在每个参与者都只有有限种策略选择并允许混合策略的前提下，纳什均衡定存在。

以两家公司的价格大战为例，价格大战存在着两败俱伤的可能，在对方不改变价格的条件下既不能提价，否则会进一步丧失市场;也不能降价,因为会出现赔本甩卖。于是两家公司可以改变原先的利益格局，通过谈判寻求新的利益评估分摊方案。相互作用的经济主体假定其他主体所选择的战略为既定时，选择自己的最优战略的状态，也就是纳什均衡。

含义

假设有n个局中人参与博弈，如果某情况下无一参与者可以独自行动而增加收益（即为了自身利益的最大化，没有任何单独的一方愿意改变其策略的），则此策略组合被称为纳什均衡。所有局中人策略构成一个策略组合（Strategy Profile）。纳什均衡，从实质上说，是一种非合作博弈状态。

纳什均衡达成时，并不意味着博弈双方都处于不动的状态，在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的。纳什均衡也不意味着博弈双方达到了一个整体的最优状态，需要注意的是，最优策略不一定达成纳什均衡，严格劣势策略不可能成为最佳对策，而弱优势和弱劣势策略是有可能达成纳什均衡的。在一个博弈中可能有一个以上的纳什均衡，而囚徒困境中有且只有一个纳什均衡。

分类

纳什均衡可以分成两类：“纯战略纳什均衡”和“混合战略纳什均衡”。

要说明纯战略纳什均衡和混合战略纳什均衡，要先说明纯战略和混合战略。

所谓纯战略是提供给玩家要如何进行赛局的一个完整的定义。特别地是，纯战略决定在任何一种情况下要做的移动。战略集合是由玩家能够施行的纯战略所组成的集合。而混合战略是对每个纯战略分配一个机率而形成的战略。混合战略允许玩家随机选择一个纯战略。混合战略博弈均衡中要用概率计算，因为每一种策略都是随机的，达到某一概率时，可以实现支付最优。因为机率是连续的，所以即使战略集合是有限的，也会有无限多个混合战略。

当然，严格来说，每个纯战略都是一个“退化”的混合战略，某一特定纯战略的机率为 1，其他的则为 0。

故“纯战略纳什均衡”，即参与之中的所有玩家都玩纯战略；而相应的“混合战略纳什均衡”，之中至少有一位玩家玩混合战略。并不是每个赛局都会有纯战略纳什均衡，例如“钱币问题"就只有混合战略纳什均衡，而没有纯战略纳什均衡。不过，还是有许多赛局有纯战略纳什均衡（如协调赛局，囚徒困境和猎鹿赛局）。甚至，有些赛局能同时有纯战略和混合战略均衡。

经典案例-囚徒困境

假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果一个犯罪嫌疑人坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白，则两人各被判刑8年；如果另一个犯罪嫌人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。

关于案例，显然最好的策略是双方都抵赖，结果是大家都只被判1年。但是由于两人处于隔离的情况，首先应该是从心理学的角度来看，当事双方都会怀疑对方会出卖自己以求自保、其次才是亚当·斯密的理论，假设每个人都是“理性的经济人”，都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程：假如他坦白，如果我抵赖，得坐10年监狱，如果我坦白最多才8年；假如他要是抵赖，如果我也抵赖，我就会被判一年，如果我坦白就可以被释放，而他会坐10年牢。综合以上几种情况考虑，不管他坦白与否，对我而言都是坦白了划算。两个人都会动这样的脑筋，最终，两个人都选择了坦白，结果都被判8年刑期。

基于经济学中“理性的经济人”的前提假设，两个囚犯符合自己利益的选择是坦白招供，原本对双方都有利的策略不招供从而均被判处一年就不会出现。这样两人都选择坦白的策略以及因此被判8年的结局，纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战：按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。但是我们可以从“纳什均衡”中引出“看不见的手”原理的一个悖论：从利己目的出发，结果损人不利己，既不利己也不利他。

经典案例-硬币正反

你正在图书馆枯坐，一位陌生美女主动过来和你搭讪，并要求和你一起玩个数学游戏。美女提议：“让我们各自亮出硬币的一面，或正或反。如果我们都是正面，那么我给你3元，如果我们都是反面，我给你1元，剩下的情况你给我2元就可以了。”那么该不该和这位姑娘玩这个游戏呢？这基本是废话，当然该。问题是，这个游戏公平吗？

每一种游戏依具其规则的不同会存在两种纳什均衡，一种是纯策略纳什均衡，也就是说玩家都能够采取固定的策略(比如一直出正面或者一直出反面)，使得每人都赚得最多或亏得最少；或者是混合策略纳什均衡，而在这个游戏中，便应该采用混合策略纳什均衡。

假设我们出正面的概率是x，反面的概率是1-x，美女出正面的概率是y，反面的概率是1-y。为了使利益最大化，应该在对手出正面或反面的时候我们的收益都相等（不然在这个游戏中，对方可以改变正反面出现的概率让我们的期望收入减少），由此列出方程就是：

3y + (-2)*(1-y)=(-2) * y + 1*( 1-y )

解方程得y=3/8。

同样，美女的收益，列方程

-3x + 2( 1-x)= 2x+ (-1) * ( 1-x)

解得x也等于3/8。

而美女每次的期望收益则是 2(1-x)- 3x = 1/8元。这告诉我们，在双方都采取最优策略的情况下，平均每次美女赢1/8元。其实只要美女采取了(3/8,5/8)这个方案，不论你再采用什么方案，都是不能改变局面的。

经典案例-饿狮博弈

假设有A、B、C、D、E、F六只狮子（强弱从左到右依次排序）和一只绵羊。假设狮子A吃掉绵羊后就会打盹午睡，这时比A稍弱的狮子B就会趁机吃掉狮子A，接着B也会午睡，然后狮子C就会吃掉狮子B，以此类推。那么问题来了，狮子A敢不敢吃绵羊？

为简化说明，我们先给出此题的解法。该题须采用逆向分析法，也就是从最弱的狮子F开始分析，依次前推。假设狮子E睡着了，狮子F敢不敢吃掉狮子E？答案是肯定的，因为在狮子F的后面已没有其它狮子，所以狮子F可以放心地吃掉午睡中的狮子E。

继续前推，既然狮子E睡着会被狮子F吃掉，那么狮子E必然不敢吃在他前面睡着的狮子D。

再往前推，既然狮子E不敢吃掉狮子D，那么D则可以放心去吃午睡中的狮子C。依次前推，得出C不吃，B吃，A不吃。所以答案是狮子A不敢吃掉绵羊。

推理结果如下图：

但是，如果我们在狮子F的后面增加了一只狮子G，总数变成7只，用逆向分析法按照上题步骤再推一次，很容易得出结论：狮子G吃，狮子F不吃，E吃，D不吃，C吃，B不吃，A吃。这次的答案变成了狮子A敢吃掉绵羊。

è¿éåå¾çæè¿°

对比两次博弈我们发现，狮子A敢不敢吃绵羊取决于狮子总数的奇偶性，总数为奇数时，A敢吃掉绵羊；总数为偶数时，A则不敢吃。因此，总数为奇数和总数为偶数的狮群博弈结果形成了两个稳定的纳什均衡点。

经典案例-智猪博弈

猪圈里有两头猪，一头大猪，一头小猪。猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。

那么，两只猪各会采取什么策略？答案是：小猪将选择“搭便车”策略，也就是舒舒服服地等在食槽边；而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。

原因何在？因为，小猪踩踏板将一无所获，不踩踏板反而能吃上食物。对小猪而言，无论大猪是否踩动踏板，不踩踏板总是好的选择。反观大猪，已明知小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，所以只好亲力亲为了。

智猪博弈带来的思考

“智猪博弈”告诉我们：在一个双方公平、公正、合理和共享竞争环境中，有时占优势的一方最终得到的结果却有悖于他的初始理性。

比如，在某种新产品刚上市，其性能和功用还不为人所熟识的情况下，如果进行新产品生产的不仅是一家小企业，还有其他生产能力和销售能力更强的企业。那么，小企业完全没有必要作出头鸟，自己去投入大量广告做产品宣传，只要采用跟随战略即可。

“智猪博弈”告诉我们，谁先去踩这个踏板，就会造福全体，但多劳却并不一定多得。

在现实生活中，很多人都只想付出最小的代价，得到最大的回报，争着做那只坐享其成的小猪。“一个和尚挑水喝，两个和尚抬水喝，三个和尚没水喝”说的正是这样一个道理。这三个和尚都想做“小猪”，却不想付出劳动，不愿承担起“大猪”的义务，最后导致每个人都无法获得利益。

证券市场中的“智猪博弈”

金融证券市场是一个群体博弈的场所，其真实情况非常复杂。在证券交易中，其结果不仅依赖于单个参与者自身的策略和市场条件，也依赖其他人的选择及策略。

在“智猪博弈”的情景中，大猪是占据比较优势的，但是，由于小猪别无选择，使得大猪为了自己能吃到食物，不得不辛勤忙碌，反而让小猪搭了便车，而且比大猪还得意。这个博弈中的关键要素是猪圈的设计，即踩踏板的成本。

证券投资中也是有这种情形的。例如，当庄家在底位买入大量股票后，已经付出了相当多的资金和时间成本，如果不等价格上升就撤退，就只有接受亏损。

所以，基于和大猪一样的贪吃本能，只要大势不是太糟糕，庄家一般都会抬高股价，以求实现手中股票的增值。这时的中小散户，就可以对该股追加资金，当一只聪明的“小猪”，而让 “大猪”庄家力抬股价。当然，这种股票的发觉并不容易，所以当“小猪”所需要的条件，就是发现有这种情况存在的猪圈，并冲进去。这样，你就成为一只聪明的 “小猪”。

从散户与庄家的策略选择上看，这种博弈结果是有参考价值的。例如，对股票的操作是需要成本的，事先、事中和事后的信息处理，都需要金钱与时间成本的投入，如行业分析、企业调研、财务分析等。

一旦已经付出，机构投资者是不太甘心就此放弃的。而中小散户，不太可能事先支付这些高额成本，更没有资金控盘操作，因此只能采取小猪的等待策略。等到庄家动手为自己觅食而主动出击时，散户就可以坐享其成了。

股市中，散户投资者与小猪的命运有相似之处，没有能力承担炒作成本，所以就应该充分利用资金灵活、成本低和不怕被套的优势，发现并选择那些机构投资者已经或可能坐庄的股票，等着大猪们为自己服务。

由此看到，散户和机构的博弈中，散户并不是总没有优势的，关键是找到有大猪的那个食槽，并等到对自己有利的游戏规则形成时再进入。

遗憾的是，在股市中，很多作为“小猪”的散户不知道要采取等待策略。更不知道让“大猪”们去表现，在“大猪”们拉动股票价格后从中获取利润，才是“小猪”们的最佳选择。

作为“小猪”，还要学会特立独行。行动前，不用也不需要从其他“小猪”那里得到肯定；行动时，认同且跟随你的“小猪”越多，则你出错的可能也就越大。简单地说，就是不要从众，而是跟随“大猪”。

当然股市中的金融机构要比模型中的大猪聪明的多，并且不守游戏规则，他们不会甘心为小猪们踩踏板。事实上，他们往往会选择破坏这个博弈的规矩，甚至重新建立新规则。

比如他们可以把踏板放在食槽旁边，或者可以遥控，这样小猪们就失去了搭便车的机会。例如，金融机构和上市公司串通，散布虚假的利空消息，这就类似于踩踏板前骗小猪离开食槽，好让自己饱餐一顿。

当然金融市场中的很多“大猪”也并不聪明，他们的表现欲过强，太喜欢主动地创造市场反应，而不只是对市场作出反应。短期来看，他们可以很容易地左右市场，操纵价格，做胆大妄为的造市者。

这些“大猪”们并不知道自己要小心谨慎、如履薄冰，他们不知道自己的力量不如想象的那样强大到可以无敌于天下。自然而然地，每一年都会有一些高估自己的“大猪”倒下，幸存的“大猪”在经过优胜劣汰之后会变得更加强壮。

不过，无论是多么强壮的“大猪”，只要过于自信、高估自己控制市场的能力，总会倒下。

俗话说“家家有本难念的经”，在股市中，“大猪”有“大猪”的难处，“小猪”有“小猪”的难处。尽管“大猪”“小猪”只要了解自身处境，采取相应的策略就会成功，然而理性是有限的，确定的成功总是很难获得。