博弈论(1):囚徒困境中的博弈论

囚徒困境(Prisoner’s dilemma)
囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。
经典的囚徒困境
1950年,由就职于兰德公司的梅里尔·弗拉德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问阿尔伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:

  警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:

若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。
若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。
若二人都互相检举(互相“背叛”),则二人同样判监2年。 
用表格概述如下:
                 甲沉默(合作)                 甲认罪(背叛)
乙沉默(合作)     二人同服刑半年              甲即时获释;乙服刑10年
乙认罪(背叛)     甲服刑10年;乙即时获释         二人同服刑2年

  如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势策略”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。

  囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:

**若对方沉默、背叛会让我获释,所以会选择背叛。
若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。** 

  二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。

  这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。
  
怎么解决囚徒困境?

关于如何解决囚徒困境,我个人比较认同知乎上同名的一个问题的这位作者所分析的这三种方式:(链接:https://www.zhihu.com/question/19656576/answer/34887491
1.外部力量补充导致payoff改变。比如,选择坦白的囚犯会受到组织的惩罚。
2.不固定次数的重复博弈。之所以强调不固定次数,是因为根据“倒推法”,如果知道博弈次数,那么在最后一轮就应该选择“不合作”,因此在倒数第二轮也应该选择“不合作”,一只可以推至,在第一轮就应该选择不合作。(reference: 维基百科 固定次数的囚徒困境)
3.教育
对于“教育”我的理解有这样两种:
共有知识的完全信息
这里我认为的共有知识是指:对方知道我知道共同选择合作是最好的选择;对方知道我也知道他知道共同选择合作是最好的选择。也就是说不是基于相互之间的无强制力的信任,而是基于对方的common knowledge。
教育导致payoff的改变
比如,因为教育改变了对方对自己行为所带来的内部utility改变了,就是说虽然事情的外部后果没有变,但是由于愧疚或者其它情绪导致payoff发生了变化。Bibliography :在耶鲁大学博弈论公开课中,教授Ben Polak提出,解决囚徒困境的本质是一定要改变参与者的payoff,其具体提出了三种方法解决囚徒困境:
1.订立具有强制力的契约、合同等
2.重复博弈
3.教育
Polak教授同时强调了沟通并不能够解决囚徒困境。原因是:在缺乏外部约束的情况下,即使两者串供商定选择合作,“我”并不能知道对方会不会遵循这个约定。更重要的是,如果“我”确定对方会遵循了这个约定,那么根据理性人原则(假设我是经济学上理性的),为了自己的利益最大化,”我”应该选择背叛。

当然囚徒困境只是渊博的博弈论中的一个小部分,我的学习是先了解各种博弈论的模型,再从理论上去分析各种博弈论。

留一道思考题:
假设猪圈里有一头大猪和一头小猪,有一个开关控制食物供应,但供应口远离开关。如果小猪按下开关,那么当小猪赶到供应口之前,大猪就会把食物全部吃完;而如果大猪按下开关,那么大猪赶到时只能和小猪抢食部分残渣。如果你是小猪,你会按吗?这里有优势策略吗?

下一篇:博弈论(2):智猪博弈

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值