张维迎《博弈与社会》纳什均衡与囚徒困境博弈（4）纳什均衡与一般预期

最新推荐文章于 2024-10-08 11:32:26 发布

feiyu66666

最新推荐文章于 2024-10-08 11:32:26 发布

阅读量1.1k

点赞数 17

分类专栏：课外阅读文章标签：经济学博弈论笔记学习其他

本文链接：https://blog.csdn.net/feiyu66666/article/details/135945803

版权

课外阅读专栏收录该内容

30 篇文章 1 订阅

订阅专栏

纳什均衡

更为麻烦的是，有些博弈中，即便参与人的理性共识再高，我们也不可能用重复剔除劣战略的方法求解。考虑下图所示的博弈：

首先考虑参与人R的选择：如果C选择C1, R的最优选择是R2；如果C选择C2, R的最优选择是R1；如果C选择C3, R的最优选择是R3。

再来看参与人C的选择：如果R选择R1, C就选择C1；如果R选择R2, C会选择C2；如果R选择R3, C会选择C3。

也就是说，在这个博弈中，每个参与人都可能选择三个战略中的任何一个，依赖于他如何判断对方的选择，没有绝对意义上的劣战略。所以，这个博弈不能用剔除劣战略的方法求解。

这个博弈当中，任何一个战略都可以理性化（rationalization）。也就是说，参与人选择任何一个战略都满足理性共识。比如，参与人R选择R1就满足理性共识：如果R相信C会选择C2的话，R选择R1就是合理的。但问题是，为什么R认为C会选择C2呢？显然，如果R认为C认为R会选择R2的话，那么，C选择C2就是合理的。再进一步，为什么C会相信R会选择R2呢？如果R认为C认为R认为C会选择C1的话，那么R当然会选择R2。为什么C认为R相信C会选择C1呢？因为R认为C认为R认为C认为R会选择R1。由此，经过这样几个一、二、三、四阶的理性共识，可以证明R选择R1是合理的。

可见，在这个博弈中，从自身的角度看，每个参与人选择任何战略都可以是合理的。但是，上述的理性化推理包含了信念（belief）的不一致，或者说误解。R选择R1的理由是他预测C会选择C2，他之所以相信C会选择C2是因为他认为C以为他会选择R2，而事实上他将选择的是R1。如果C知道R会预测自己选择C2, C当然不会选择C2了；如果R知道C知道R会预测C选择C2, R反倒没有理由再选择R1了。这就是信念（预测）的不一致。

上述博弈有9个可能的战略组合，其中只有（R3,C3）——R选择R3, C选择C3——满足一致预期：如果R预期C会选择C3, R的最优选择是R3；如果C知道R预测自己会选择C3, C就确实会选择C3；如果R知道C知道R预测C会选择C3, R就确实应该选择R3。这里，每个人对别人的行为的预期都是正确的。由此我们引出一个非常重要的概念：纳什均衡。

所谓纳什均衡（Nash equilibrium），是所有参与人的最优战略的组合，给定这一组合中其他参与人的选择，没有任何人有积极性改变自己的选择。比如，战略组合（R3, C3）就是一个纳什均衡。在这个组合中，给定C选择C3, R的最优选择是R3；同样，给定R选择R3, C3也是C的最优选择。它们是相互一致的（mutuallyconsistent），互为最优的，故构成一个纳什均衡。

纳什均衡有一个很重要的特点，即信念和选择之间的一致性。就是说，基于信念的选择是合理的，同时支持这个选择的信念也是正确的。纳什均衡也可以说是可以自我实施（self-enforcement）的，也就是说，如果所有人都认为这个结果会出现，这个结果就真的会出现（可以检查一下博弈中的所有组合，只有纳什均衡能满足自我实施的条件）。

现在我们换一个角度来理解纳什均衡：假如在博弈之前，所有的参与人达成一个协议。我们的问题是：在不存在外部强制执行的情况下，每一个人是否有积极性去自觉遵守这个协议？如果每个人都有积极性遵守这个协议，这个协议就构成一个纳什均衡。也就是说，给定这个协议，别人遵守的情况下，没有人会有积极性选择不同于这个协议的行动，这个协议就是一个纳什均衡。

以如下图所示博弈为例。假如R和C要签合同，表中的每一个战略组合都可以看成一个潜在的合同。例如，（R1, C1）指合同规定R选择R1, C选择C1；类似地，（R1, C2）指合同规定R选择R1,C选择C2；如此等等，总共有9个可能的合同。那么，这9个合同中，哪一个（些）能得到自觉遵守呢？

只有（R2, C2）这个合同会得到自觉遵守，因而是一个纳什均衡。其他的合同，至少有一人是不会遵守的。如（R2, C3），即使对方遵守，自己也不会遵守；再如（R3, C1），虽然给定R遵守的情况下，C会遵守，但即使C遵守，R也不会遵守，因为选择R1（不遵守）比选择R3（遵守）可以得到更高的报酬。所以这两个组合都不是纳什均衡。类似地，容易证明，除（R2, C2），其他6个组合也不是纳什均衡。这就是纳什均衡的哲学含义。这一含义提醒我们，如果一个合同（包括制度）不是纳什均衡，就可能得不到所有人的自觉遵守。

纳什均衡可以把前面讲的占优均衡和重复剔除的占优均衡概念统一起来。占优均衡和重复剔除的占优均衡都是纳什均衡，但反之不成立。如囚徒困境博弈中双方都选择不合作就是一个纳什均衡；智猪博弈中“大猪按、小猪不按”也是一个纳什均衡。但上例中的（R2, C2）不是占优均衡，也不是重复剔除的占优均衡。由于占优均衡只要求参与人自己是理性的，不要求参与人知道其他参与人也是理性的，重复剔除的占优均衡只要求有限阶的理性共识，占优均衡和重复剔除的占优均衡比非占优的纳什均衡更容易在现实中发生。

应用举例：寻租行为和产权制度

纳什均衡概念作为博弈分析最重要的概念，对于我们研究和理解制度和许多经济社会现象非常重要。一个制度即使对所有人都不好，但如果它是一个纳什均衡，就仍然会持续存在。反之，一个制度即使听起来很好，但如果它不是一个纳什均衡，就不可能得到所有人的自觉遵守。特别是，如果我们的社会要从囚徒困境中走出来，就必须有办法使每个人选择合作成为一个纳什均衡。这就是为什么诺贝尔经济学奖得主迈尔森（Myerson,1999）认为，发现纳什均衡的意义可以和生命科学中发现DNA的双螺旋结构相媲美的原因。

纳什均衡是一个分析工具，本身不包含价值判断。在以后的章节中我们会经常应用这个概念分析各种规章制度和政策。这里我们先举几个例子说明纳什均衡是一个多么有力的分析工具。

20世纪90年代的中国股票市场上，很多企业不断地通过配股来实现寻租。这可以理解为经理人给股东设计的一个囚徒困境博弈。设想某企业现在的价值是100元，发行在外的流通股有100股，因此每股的价格是1元（假定股票价格准确反映了企业的真实价值）。现在假定经理要筹集100元钱，但是投资之后价值只有50元。从股东的利益讲，这100元是不应该筹集的，但经理人出于控制权或个人享受的目的有积极性这样做。如果股东很分散，假设有100个股东每人持1股，对经理缺乏约束力。现在经理人做出一个配股决策，1配4，配股价是每股0.25元。这样，如果配股完成，就筹集到100元的资金。问题是，股东愿意接受配股吗？如果某一股东不接受配股，他原本持有的1股在配股之后价值就由原来的1元变为0.3元（即公司总价值150元——原始价值100元加上新增价值50元，除以配股后总股数500股）；如果股东接受配股，他持有的份额变成5股，仍为总股本的百分之一，那么，他的股票价值是150元的百分之一，即1.5元。他多花4×0.25=1元的代价，多得到1.2元（=1.5-0.3）的总价值，显然，所有股东都接受配股是一个纳什均衡。经理人如愿以偿，但股东集体损失50元。对全体股东有害的事情之所以能做成，是因为经理人配股方案的设计使得股东陷入囚徒困境。如果配股方案是1∶1，每股1元，股东就不会接受配股，因为不接受配股最多损失0.25元（配股后每股价变成0.75元），接受配股的损失是0.5元。这个例子也说明，企业的配股价比市场价越低，配股越有可能是经理人的寻租行为，而不是出于股东利益的考虑。即使我们假定经理人是大股东，只要他在控制权上的利益大于股权上的利益，这个结论也不会改变。

社会上的很多其他制度也是如此。以社会保险为例，假设职工应得工资为每月1万元，政府扣下1000元作为社会保险金，发给职工9000元。然后，如果该职工参加社会保险，个人交纳1000元保险费，政府配比1000元，合在一起构成个人账户上的保险金，总共就是2000元。但由于社会保险资金管理不善，等到领退休金的时候，政府管理的2000元已经变成1500元。显然，如果1万元工资全额发放，职工最好的选择是不参加保险，自己管好自己的钱。但是现在，由于政府扣下了1000元，某职工若不参加保险，这部分钱就会白白损失；如果参加，自己再交上1000元，还可以拿回来1500元，参加保险还是比不参加保险好。这就是政府给老百姓设计出的囚徒困境博弈，它使每个职工都不得不“自愿”参加社会保险。当然在现实中，当政府管理的保险金不够支付时，通常会用印票子或增加税收的办法补充保险金，而不是减少退休金的办法。但出于这个原因而印票子和征税本身，也不过是政府设计的一个囚徒困境博弈。

前面两个例子是企业经理人和政府如何通过制度设计使股东和老百姓陷入囚徒困境博弈。这当然是不幸的事情。幸运的是，社会也可以通过所有权的配置与等级结构的设计走出合作中的囚徒困境。考虑下图所示的团队生产的囚徒困境问题。

在这个例子中，如果甲、乙两个人都选择努力工作，各得6的支付，是帕累托最优的。但由于囚徒困境问题，每个人的占优战略都是偷懒，所以，这个博弈的纳什均衡是两个人都偷懒，结果每个人只能得2。如何解决团队生产中的偷懒问题？1972年，两位美国经济学家，阿尔钦和德姆塞茨（Alchian and Demsetz, 1972）在《美国经济评论》上发表了《生产、信息成本和经济组织》一文，提出了解决方案：使其中一人成为所有者，另一人变成雇员，让前者监督后者。具体来说，原本这个组织的参与者甲和乙是平等的成员，所以大家都会偷懒。现在假设对所有权进行调整，甲来监督乙，并根据乙的表现对其实施奖惩。如果乙不偷懒，将得到6的效用；如果乙偷懒，只能得到4的效用。那么乙会有激励努力工作。这时，伴随出现的另一个问题是，甲为什么有积极性监督乙呢？也就是说，谁来监督监督者？很简单，就是使甲成为这个企业的所有者，乙创造的剩余价值属于甲。这样，如果甲和乙都努力工作，每人得到6；如果乙工作，甲偷懒，甲只能得到2；如果乙偷懒，但甲疏于监督，甲也只能得到2。这样，甲和乙都有积极性努力工作。在这个意义上说，所有权解决了团队生产中的囚徒困境问题。

批注：什么时候老板偷懒，员工工作能这样我觉得就没有问题了。。。

混合策略下的纳什均衡

在前面的例子中，每个参与人的最优行动是确定的。但在有些博弈中，参与人的最优选择不是一个确定的行动或战略。比如在如下图所示的喝酒划拳博弈中，每个人都有四个选择（老虎、鸡、虫、杠子），如果一个人总是选择相同的招数（如老虎），那他一定会输得一塌糊涂。

这个博弈没有纳什均衡。比方说，如果一方知道对方要出老虎，自己最好出杠子；但是对方知道你出杠子的话，他最好是出虫；你知道对方出虫，最好又是出鸡；如果对方知道你出鸡，他最好是出老虎。这样循环，没有前面讲的纳什均衡结果。

现在我们引入另外一个概念：混合战略纳什均衡（mixed strategy Nash equilibrium）。前文讲的纳什均衡，指的是纯战略（pure strategy）纳什均衡，即确定地选择某一特定的战略，如果两个战略互为最优，就是一个（纯战略）纳什均衡。显然，上图中的例子没有纯战略纳什均衡。与纯战略相对应，混合战略是指，参与人以某一概率随机地选择某一行动。比如在划拳博弈中，每个参与者的最优选择一定是要随机地出招，从而使对方无法猜测到自己要出什么。容易看出，在这个例子里，每个人的最优战略是以四分之一的概率随机地选择老虎、鸡、虫、杠子中的任何一个（类似于从分别写有老虎、鸡、虫、杠子的四个纸团中随机抽取，抽到什么就出什么），这构成一个混合战略纳什均衡，平均的支付都是零。

现在看一个混合战略纳什均衡的应用——监督博弈。比如工人选择是否偷懒，老板选择是否监管。如下图所示。如果工人偷懒，老板监督，老板得到1，工人就亏了1；如果工人偷懒，老板不监督，工人就赚了3，老板就亏了2；如果工人不偷懒，老板监督，他发现工人没有偷懒，还需要奖励，所以老板亏了1，工人赚了2；如果工人不偷懒，老板也不监督，双方都得到2。

在这个例子中，员工不偷懒、老板不监督是最好的（总收益最大），但这不是一个纳什均衡。可以看出，如果员工不偷懒，老板应该不监督；但如果员工知道老板不监督，员工的最优选择应该是偷懒；如果老板知道员工偷懒，他又应该监督；而员工知道老板要监督，他肯定不偷懒；老板知道员工不偷懒，他最好又是不监督。这样，形成一个循环，因此，没有一个纯战略的纳什均衡。

参与人在这类博弈中的最优战略是以一定的概率随机地选择各个战略。假如老板认为员工偷懒的概率是P，不偷懒的概率是1-P，从老板的角度，监督的预期收益是1×P+（-1）×（1-P）=2P-1；如果不监督，预期收益为（-2）×P+2×（1-P）=2-4P。

从员工的角度，员工不希望老板猜测到自己选择偷懒还是不偷懒，即要使老板的预期收益在监督与不监督之间没有区别，也就意味着两种预期收益应该相等：2P-1=2-4P，即P=1/2。这时，员工选择以1/2的概率偷懒，1/2的概率不偷懒，老板监督与不监督是一样的。假如老板以Q的概率选择监督，1-Q的概率选择不监督，这时，从员工的角度，选择偷懒的预期收益是（-1）×Q+3×（1-Q）=3-4Q；选择不偷懒的预期收益为2×Q+2×（1-Q）=2。要使员工的选择在这两者之间无差异，则两者应相等，即3-4Q=2。这意味着老板以1/4的概率监督，3/4的概率不监督。

如果员工偷懒的概率小于1/2，老板不监督的预期收益大于监督，最优选择应该是不监督；如果员工偷懒的概率大于1/2，老板就应该监督。同样，对于员工而言，如果老板监督的概率小于1/4，他会选择偷懒；而如果老板监督的概率大于1/4，他就会选择不偷懒。

现在社会上逃税的现象十分普遍。那么，是利润高的企业逃税的可能性更大，还是利润低的企业逃税的可能性更大？直观地讲，你可能认为利润高的更可能逃税，因为逃税的好处大。但这个判断是错误的，因为你忽略了税务机关的反应。因为高利润企业逃税被抓到后可以开出更大的罚单，税务机关的反应是，越是利润高的企业，对其监管的力度也越大，最后的均衡结果是大企业反倒不敢逃税，小企业更可能逃税。这其实和做人是一样的，犯小错误的人可能很多，但犯大错误的人不是很多。因为犯小错误没人会理睬你，犯大错误则可能导致身败名裂，所以人们经常是小错不断，大错不犯。

在引入了混合战略后，纯战略纳什均衡也可以被叫做（退化）混合战略纳什均衡。纳什（1951）证明，所有的博弈都存在纳什均衡。每一个有限的博弈，至少存在一个纳什均衡，可能是纯战略的，也可能是混合战略的。下一章我们将看到，一个博弈可能会存在多个纳什均衡。而且一般来讲，纳什均衡都是奇数个，如果一个博弈存在两个纯战略纳什均衡，那么一定存在第三个混合战略纳什均衡。

需要指出的一点是，前面的讨论假定参与人是不会犯错误的。这个假设当然是有问题的。在有些情况下，如果犯错误的可能性很小，纳什均衡结果仍然是一个合适的预测。但在一些特殊情况下，即使小的错误也可能导致大的灾难（比如三峡大坝如果出问题的话，后果就非常严重），纳什均衡就可能不会产生有说服力的解释。现在看一个简单的博弈，其支付矩阵如下图所示。

上图所示的博弈中，（上，左）是一个纳什均衡。但实际决策中，参与人甲会选择“上”吗？如果他100%地确认参与人乙会选择“左”，其最优选择当然是“上”，但如果哪怕有很小的概率（比如1%）知道对方可能犯错误，即本想选择“左”，但因为手的颤抖，选择了“右”，则参与人甲有99%的可能性得到8,1%的可能性亏损1000, “上”就不是一个最优选择。即使对方以0.1%的概率犯错误，参与人甲的最优选择仍然是“下”。不论对方是否犯错误，选择“下”可以得到7或者6，是一个安全的选择。这个例子说明，个体可能不像我们所假设的那样完全理性，在遇到高风险的情况下，人们会考虑风险，从而使得最终结果可能偏离纳什均衡战略。