纳什均衡

22 篇文章 1 订阅

囚徒困境

百科名片
囚徒困境   
囚徒困境
囚徒困境(prisoner's dilemma )是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会
频繁出现类似情况。

编辑本段概念释义

囚徒困境(prisoner's dilemma ):两个被捕的囚徒之间的一种特殊 博弈,说明为什么甚至在合作对双方都有利时,保持合作也是困难的。(摘自曼昆《 经济学原理》第五版, 北京大学出版社

编辑本段概念来源

囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。于是,每个囚徒都面临两种选择:坦白或抵赖。然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,不坦白的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,不坦白的话判十年,坦白还是比不坦白好。结果,两个嫌疑犯都选择坦白,各判刑八年。如果两人都抵赖,各判一年,显然这个结果好。但这个 帕累托改进办不到,因为它不能满足人类的理性要求。囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。

单次多重

单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。
重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量, 纳什均衡趋向于 帕累托最优

主旨

囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以 执法者所设立之利益(刑期)作考量。

编辑本段固定困境

试想像囚徒困境的情况进行十次。
我们可以合理地设想,如果囚徒第一次被对方指控,第二次这个囚徒也会指控对方。相反,如果第一次
相关书籍

  相关书籍

别人保持沉默,建立了互信的关系,你也会保持沉默,导致帕累托最优。
当然,两个囚徒都会有相似的想法,在第一局保持沉默,以期望建立互信关系,所以双方都会保持沉默。第二局时,双方亦应有相似的想法,继续保持沉默,以期继续在互信的情况下进行第三局,以致余下的八局。
这种想法合理吗?
在第十局时,互信的关系明显是没有意义的,因为十局已经完结,囚徒没有必要为维持互信的关系而沉默(没有第十一局),所以第十局囚徒一定会背叛对方的,理由和只有一局囚徒困境一样。
问题是,既然大家都知道在第十局,无论如何对方都会背叛自己的,你在第九局保持沉默也是没有意思的,要知道,保持沉默(友好关系)的原因是为了希望下一局别人保持沉默。所以 第九局双方都一定会背叛对方的。
下一个问题是,双方都有相同的想法,明知第九局对方会背叛自己,所以第八局保持沉默也是没有意思的,第七局亦然,如此类推,纳什均衡是十局都会互相背叛,建立互信关系是没有可能的。
只有在囚徒困境的局数大家都不肯定的情况下,上述的推论才不会发生,才会出现互相保持沉默的现象。

编辑本段经典困境

例子

1950年,由就职于 兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。
若二人都保持沉默(相关术语称互相“合作”),则二人同样判监1年。
若二人都互相检举(相关术语称互相“背叛”),则二人同样判监8年。
用表格概述如下:
 
甲沉默
甲背叛
乙沉默
二人同服刑1年
乙服刑10年,甲即时获释
乙背叛
甲服刑10年,乙即时获释
二人同服刑8年

解说

如同 博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:
若对方沉默时,背叛会让我获释,所以会选择背叛。
若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑8年。
这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑1年,总体利益更高,结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了: 非零和博弈中,帕累托最优和纳什均衡是相冲突的。

编辑本段一般形式

整理囚徒困境的基本博弈结构,可更清楚地分析囚徒困境。  实验经济学常用这种博弈的一般形式分析各种论题。以下是实现一般形式的其中一例:
有两个参与者和一个 庄家。参与者每人有一式两张卡片,各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下,放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性。然后,庄家翻开两个参与者卡片,根据以下规则支付利益:
· 一人背叛、一人合作:背叛者得5分(背叛诱惑),合作者0分(受骗支付)。
· 二人都合作:各得3分(合作报酬)。
· 二人都背叛:各得1分(背叛惩罚)。
支付矩阵表格展示支付如下(以红和蓝分别表示二参与者):
一般形式囚徒困境的 支付矩阵
以“T、R、P、S”符号表示
以“胜-负”术语表示
一般形式囚徒困境的 支付矩阵
以“T、R、P、S”符号表示
以“胜-负”术语表示
 
合作
背叛
 
合作
背叛
 
合作
背叛
合作
3, 3
0, 5
合作
R, R
S, T
合作
胜-胜
大负-大胜
背叛
5, 0
1, 1
背叛
T, S
P, P
背叛
大胜-大负
负-负
简单博弈获得的点数可以得出一些一般化的结论。
T、R、P、S符号表
符号
分数
英文
中文(非术语)
解释
T
5
Temptation
背叛诱惑
单独背叛成功所得。
R
3
Reward
合作报酬
共同合作所得
P
1
Punishment
背叛惩罚
共同背叛所得
S
0
Suckers
受骗支付
被单独背叛所获
若以T(Temptation)=背叛诱惑,R(Reward)=合作报酬,P(Punishment)=背叛惩罚,S(Suckers)=受骗支付,以个人选择得分而言,可得出以下 不等式
T>R>P>S
(解:从5>3>1>0获得以上不等式)
若以整体获分而言,将得出以下 不等式
2R>T+S或2R>2P
(解:2×3>5+0或2×3>2x1;合作2人共得6分,比起互相背叛的共得2分及单独背叛的共得5分,显然合作获分比背叛高。合作在团体而言是支配性策略。)
重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离困境。以上理论是道格拉斯·霍夫施塔特(侯世达)创建的。

编辑本段

从纳什均衡看旁观者效应

  1661人阅读  评论(2)  收藏  举报

1964年3月13号凌晨3点,纽约酒吧经济Kitty Genovese在即将到达寓所时,遭到持刀暴徒的侵犯,她惊恐的尖叫并恳求帮助。但她的38户邻居,很多人走到窗户前观望了片刻,目睹她在歹徒手中挣 扎,但直到歹徒离开,才有人打电话报警。但Genovese却未能得到及时救治很快就死去了。[1]

为什么Kitty的邻居没有一个人援助她?人们普遍归因于人的异化与冷漠。但心理学家有不同的看法,大量的实验和研究显示在公共场所观看危机事件的旁观者越多,愿意提供帮助的人就越少,这被称为旁观者效应

为什么会这样呢?心理学家

...猜测,当旁观者的数目增加时,任何一个旁观者都会更少地注意到事件的发生,更少地把它解释为一个重大的问题或紧急情况,更少地认为自己有采取行动的责任。[1]

下面用经济学中的纳什均衡[2]的方法定量地说明,在人数变多时,的确是任何一个人提供帮助的可能性变小,而且存在某人提供帮助的可能性也在变小!通俗的说,在开头的报警案例中,围观者(邻居)越多,报警的可能性越小! (这些来源于2年前与同学的讨论,只不过当时还不知道心理学上也有对应的分析。)

在这里假设人都是利益动物(也就说下面的分析不考虑社会心理学中提到的人的心理因素)。在最开始的抢劫案件中,假设有n个围观者,有人提供帮助(报警),每个人都能得到a的固定收益,但报警者会有额外损失b(可以看成提供帮助所消耗的时间,精力或者报警者所可能遇到的危险——注意最近的彭宇案件)。容易知道,在b>a时,一个完全理性的人不可能去报警,所以我们只考虑0.leq b .leq a的情形。我们来分析一下,在这个模型里面,每个人将如何行动?

按照上面的假定,对于某个人A而言,他的收益矩阵为:


其他n-1个人不报警 其他n-1个人有人报警
A不报警 0 a
A报警 a-b a-b

我们求上面的收益矩阵的纳什均衡,由于每个人都是对称的(暂且只考虑对称的纳什均衡),无妨假设每个人不报警的概率为p,不难得到纳什均衡在p=(.frac{b}{a})^{.frac1{n-1}}达到。注意p是随着人数n增大而增大的!更重要的是,存在某人报警的概率1-p^n=1-(.frac{b}{a})^{.frac{n}{n-1}}随着人数的增加而减少!

注意,上面的结果也提供了报警的概率与.frac{b}{a}的相关关系。

(注:纳什均衡点计算可能有点问题,有网友指出应该是p=pow(b/na, 1/(n-1)),不过不影响结果分析。)

更多推断:

  • 相对而言,城市居民比小乡村居民更冷漠:在人少的地方获得帮助的可能性反而更大。
  • 朋友并不是越多越好的(?)
  • 求助时不要同时向若干人求助,即便如此也不要让他们互相知道。
  • 常在新闻里看到,一人受伤或者...,多少多少人围观,却没有人提供帮助。但从上面的分析可以看出,更多人看热闹并不代表着社会道德水平更低。
  • 一个社会的道德水平,如不考虑别的因素(社会和心理上的),将由ba的比值决定,而在受益a确定的情况下,完全由b决定,这里的b是提供帮助的成本(包括时间,精力,以及有可能遭致的打击报复,甚至忘恩负义者的反咬)。
  • 和谐社会,需要努力降低前面的b值,通过给与金钱上或者精神上的奖励。
  • 彭宇事件,根据网络上的反应,这件事情大大提高了b,将导致道德水平下降。[西乔有一篇文章老太摔倒均衡点给出了类似的分析]
参考:

[1] David G. Myers, Social Psychology - 社会心理学, P363-369.

[2] 纳什均衡, 简单说来,纳什均衡是指相互作用的经济主体,每一方都在另一方所选择的战略为既定时,选择自己的最优战略。一旦双方达到了这种纳什均衡,都不会再有做出不同决策的冲动或激励。其最重要的案例是囚徒困境

现实例子

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值