纳什均衡

最新推荐文章于 2020-12-14 17:10:34 发布

pi9nc

最新推荐文章于 2020-12-14 17:10:34 发布

阅读量2.7k

点赞数

分类专栏： math 思维

math 同时被 2 个专栏收录

48 篇文章 3 订阅

订阅专栏

思维

22 篇文章 1 订阅

订阅专栏

囚徒困境

百科名片

囚徒困境

囚徒困境（prisoner's dilemma ）是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会

频繁出现类似情况。

概念释义

概念来源

固定困境

经典困境

一般形式

现实例子

编辑本段 概念释义

囚徒困境（prisoner's dilemma ）：两个被捕的囚徒之间的一种特殊博弈，说明为什么甚至在合作对双方都有利时，保持合作也是困难的。（摘自曼昆《经济学原理》第五版，北京大学出版社）

编辑本段 概念来源

囚徒困境的故事讲的是，两个嫌疑犯作案后被警察抓住，分别关在不同的屋子里接受审讯。警察知道两人有罪，但缺乏足够的证据。警察告诉每个人：如果两人都抵赖，各判刑一年；如果两人都坦白，各判八年；如果两人中一个坦白而另一个抵赖，坦白的放出去，抵赖的判十年。于是，每个囚徒都面临两种选择：坦白或抵赖。然而，不管同伙选择什么，每个囚徒的最优选择是坦白：如果同伙抵赖、自己坦白的话放出去，不坦白的话判一年，坦白比不坦白好；如果同伙坦白、自己坦白的话判八年，不坦白的话判十年，坦白还是比不坦白好。结果，两个嫌疑犯都选择坦白，各判刑八年。如果两人都抵赖，各判一年，显然这个结果好。但这个帕累托改进办不到，因为它不能满足人类的理性要求。囚徒困境所反映出的深刻问题是，人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。

单次多重

单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。

在 重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

主旨

囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。

编辑本段 固定困境

试想像囚徒困境的情况进行十次。

我们可以合理地设想，如果囚徒第一次被对方指控，第二次这个囚徒也会指控对方。相反，如果第一次

编辑本段 经典困境

例子

1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：

警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：

若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。

若二人都保持沉默（相关术语称互相“合作”），则二人同样判监1年。

若二人都互相检举（相关术语称互相“背叛”），则二人同样判监8年。

用表格概述如下：

	甲沉默	甲背叛
乙沉默	二人同服刑1年	乙服刑10年，甲即时获释
乙背叛	甲服刑10年，乙即时获释	二人同服刑8年

解说

如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：

若对方沉默时，背叛会让我获释，所以会选择背叛。

若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑8年。

这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

编辑本段 一般形式

整理囚徒困境的基本博弈结构，可更清楚地分析囚徒困境。实验经济学常用这种博弈的一般形式分析各种论题。以下是实现一般形式的其中一例：

有两个参与者和一个庄家。参与者每人有一式两张卡片，各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下，放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性。然后，庄家翻开两个参与者卡片，根据以下规则支付利益：

· 一人背叛、一人合作：背叛者得5分（背叛诱惑），合作者0分（受骗支付）。

· 二人都合作：各得3分（合作报酬）。

· 二人都背叛：各得1分（背叛惩罚）。

用支付矩阵表格展示支付如下（以红和蓝分别表示二参与者）：

一般形式囚徒困境的 支付矩阵

以“T、R、P、S”符号表示

以“胜－负”术语表示

一般形式囚徒困境的支付矩阵			以“T、R、P、S”符号表示			以“胜－负”术语表示
	合作	背叛		合作	背叛		合作	背叛
合作	3, 3	0, 5	合作	R, R	S, T	合作	胜-胜	大负-大胜
背叛	5, 0	1, 1	背叛	T, S	P, P	背叛	大胜-大负	负-负

简单博弈获得的点数可以得出一些一般化的结论。

T、R、P、S符号表
符号	分数	英文	中文（非术语）	解释
T	5	Temptation	背叛诱惑	单独背叛成功所得。
R	3	Reward	合作报酬	共同合作所得
P	1	Punishment	背叛惩罚	共同背叛所得
S	0	Suckers	受骗支付	被单独背叛所获

若以T（Temptation）=背叛诱惑，R（Reward）=合作报酬，P（Punishment）=背叛惩罚，S（Suckers）=受骗支付，以个人选择得分而言，可得出以下不等式。

T>R>P>S

（解：从5>3>1>0获得以上不等式）

若以整体获分而言，将得出以下不等式。

2R>T+S或2R>2P

（解：2×3>5+0或2×3>2x1；合作2人共得6分，比起互相背叛的共得2分及单独背叛的共得5分，显然合作获分比背叛高。合作在团体而言是支配性策略。）

而重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离困境。以上理论是道格拉斯·霍夫施塔特（侯世达）创建的。

编辑本段

从纳什均衡看旁观者效应

2011-11-17 10:14 1661人阅读评论(2) 收藏举报

social 电话 网络

1964年3月13号凌晨3点，纽约酒吧经济Kitty Genovese在即将到达寓所时，遭到持刀暴徒的侵犯，她惊恐的尖叫并恳求帮助。但她的38户邻居，很多人走到窗户前观望了片刻，目睹她在歹徒手中挣扎，但直到歹徒离开，才有人打电话报警。但Genovese却未能得到及时救治很快就死去了。[1]

为什么Kitty的邻居没有一个人援助她？人们普遍归因于人的异化与冷漠。但心理学家有不同的看法，大量的实验和研究显示在公共场所观看危机事件的旁观者越多，愿意提供帮助的人就越少，这被称为旁观者效应。

为什么会这样呢？心理学家

...猜测，当旁观者的数目增加时，任何一个旁观者都会更少地注意到事件的发生，更少地把它解释为一个重大的问题或紧急情况，更少地认为自己有采取行动的责任。[1]

下面用经济学中的纳什均衡[2]的方法定量地说明，在人数变多时，的确是任何一个人提供帮助的可能性变小，而且存在某人提供帮助的可能性也在变小！通俗的说，在开头的报警案例中，围观者（邻居）越多，报警的可能性越小！ (这些来源于2年前与同学的讨论，只不过当时还不知道心理学上也有对应的分析。)

在这里假设人都是利益动物（也就说下面的分析不考虑社会心理学中提到的人的心理因素）。在最开始的抢劫案件中，假设有个围观者，有人提供帮助（报警），每个人都能得到的固定收益，但报警者会有额外损失（可以看成提供帮助所消耗的时间，精力或者报警者所可能遇到的危险——注意最近的彭宇案件）。容易知道，在时，一个完全理性的人不可能去报警，所以我们只考虑的情形。我们来分析一下，在这个模型里面，每个人将如何行动？

按照上面的假定，对于某个人A而言，他的收益矩阵为：

其他n-1个人不报警其他n-1个人有人报警
A不报警 0
A报警

我们求上面的收益矩阵的纳什均衡，由于每个人都是对称的（暂且只考虑对称的纳什均衡），无妨假设每个人不报警的概率为，不难得到纳什均衡在达到。注意是随着人数增大而增大的！更重要的是，存在某人报警的概率随着人数的增加而减少！

注意，上面的结果也提供了报警的概率与的相关关系。

（注：纳什均衡点计算可能有点问题，有网友指出应该是p=pow(b/na, 1/(n-1）),不过不影响结果分析。）

更多推断：

相对而言，城市居民比小乡村居民更冷漠：在人少的地方获得帮助的可能性反而更大。
朋友并不是越多越好的(?)
求助时不要同时向若干人求助，即便如此也不要让他们互相知道。
常在新闻里看到，一人受伤或者...，多少多少人围观，却没有人提供帮助。但从上面的分析可以看出，更多人看热闹并不代表着社会道德水平更低。
一个社会的道德水平，如不考虑别的因素（社会和心理上的），将由和的比值决定，而在受益确定的情况下，完全由决定，这里的是提供帮助的成本（包括时间，精力，以及有可能遭致的打击报复，甚至忘恩负义者的反咬）。
和谐社会，需要努力降低前面的值，通过给与金钱上或者精神上的奖励。
彭宇事件，根据网络上的反应，这件事情大大提高了，将导致道德水平下降。[西乔有一篇文章老太摔倒均衡点给出了类似的分析]
参考：
[1] David G. Myers, Social Psychology - 社会心理学, P363-369.

[2] 纳什均衡, 简单说来，纳什均衡是指相互作用的经济主体，每一方都在另一方所选择的战略为既定时，选择自己的最优战略。一旦双方达到了这种纳什均衡，都不会再有做出不同决策的冲动或激励。其最重要的案例是囚徒困境。

现实例子

pi9nc

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
纳什均衡

囚徒困境百科名片囚徒困境囚徒困境（prisoner's dilemma ）是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。目录概念释义概念来源固定困境经典困境一般形式现实例子
复制链接

扫一扫