囚徒困境,纳什均衡,帕雷托最优和帕雷托改进

目录

一、囚徒困境

二、纳什均衡

三、帕雷托最优和帕雷托改进


一、囚徒困境

参考囚徒困境_哔哩哔哩_bilibili

以前我们可能会听到有人说当每人追求自己的最大利益时,社会才会达到最好的利益?这种观点是不对的。那么我们用囚徒困境来反驳。

囚徒困境,是最经典的博弈论模型,探讨如何实现个人的利益最大化和如何实现集体的利益最大化。

  • 如果同时合作,那么每人获得10年牢狱;
  • 如果同时背叛,那么每人获得20年牢狱;

站在小红的角度上,他会想如果小蓝选择合作那么我最好选择背叛,这样只要坐5年的牢,而不是10年; 如果小蓝选择背叛那么我最好也选择背叛,这样只要坐20年的牢,而不是30年。所以无论小蓝怎么选择,小红永远都会选择背叛,背叛是他的最优选择。同样的,小蓝也会这样想。

就这样,他们通过对自己的利益最大化考虑,会同时选择背叛,这样他俩的集体利益并不能达到最优,而是达到了最差,每人坐20年的牢。

通过上面的例子,我们可以看出,当每人追求自己的最大利益的时候,社会并不一定会达到最好的利益。也有很多相似的例子,比如自行车比赛或长跑比赛中, 很多人不喜欢冲在第一的位置,而是喜欢跟跑。

二、纳什均衡

参考纳什均衡_哔哩哔哩_bilibili

纳什均衡的简单表示就是,每个人的策略都是对其他人的策略的最优反应。

◼ 以囚徒困境为例

囚徒困境中,双方同时选择背叛,就是一个纳什均衡。因为小红选择合作的时候,小蓝的最优反应就是背叛;小红选择背叛的时候,小蓝的最优反应依然还是背叛;所以小蓝对小红的所有最优反应都是被背叛。类似的,小红也是。

纳什均衡还有这样一个前提,在角色圈中的个体是独立的,不合作的,也不能相互沟通。然后没搞过个体在猜测其他个体做出的动作之后,给出自己的动作。通俗来说,给定你的策略,我的策略是最好的;给定我的策略,你的策略也是你最好的。即,双方在对方给定的策略下,不愿意调整自己的策略。

博弈双方都明白,谁改变策略谁就吃亏。

有些策略是有多个纳什均衡的。当一个博弈有多个纳什均衡点的时候,其实我们无法预测最终的结果。

比如我们更改一下囚徒困境的条件,如果一个人背叛另一个人合作的时候,背叛判处15年而不是5年,那么结果会怎么样呢?

站在小红的角度上,他会想如果小蓝选择合作那么我最好也选择合作, 如果小蓝选择背叛那么我最好也选择背叛。同样的,小蓝也会这样想。

那么这四种情况都会出现,但是如果小红知道小蓝选择的策略,那么小红根据小蓝的策略选择自己的策略,同时合作和同时背叛都是趋于稳定的,就只会出现两种情况。这就是有多个纳什均衡点的例子。

◼ 以猎鹿为例

在上图的《论人类不平等的起源和基础》书中,也提到了一个例子:两个猎人,

  • 如果同时射猎小鹿,那么每人获得2个价值;
  • 如果同时射猎小兔子,那么每人获得1个价值;

这个例子,与更改过的囚徒困境是一样的,也是有2个纳什均衡点。

◼ 总结:

  • 如果出现多个纳什均衡点,我们就需要通过其他途径来改变博弈条件或者获取共同信息,和对手达成共识,使博弈尽快达到均衡。
  • 如果只有一个纳什均衡点,那么博弈的结果就是可预测的。

这样可以更好的帮助企业做出决策。

三、帕雷托最优和帕雷托改进

 参考【科普】+帕雷托最优, 利己不损人的理论_哔哩哔哩_bilibili

让我们来聊一聊帕雷托最优和帕雷托改进,在经济学和博弈论中,除了 约翰 纳什 的纳什均衡 以外, 还有一个非常重要的概念:帕雷托最优和帕雷托改进,这两个概念可以帮助人们处理多目标任务,评价整个体系的优劣。

帕累托最优, 在不损害其他人或任务的情况下,已经无法继续改善某些人或任务的境况。 简单的说,就是“ 发展自己的同时不损害别人”。

比如现在我们有十个苹果,目前的情况是小红分到了6个,小蓝分到了3个,此时还没有达到帕雷托最优。

 

帕累托改进:达到帕雷托最优的过程。

这时,小红摘掉了树上最后一个苹果,就达到了帕雷托最优,这个举动就是帕雷托改进。

在达到了帕雷托最优的体系之后,如果小蓝想要增加自己的苹果数量,那么他只能去争抢小红的苹果。所以在达到了帕雷托最优的体系之后,体系的任何改变都会损害他人

影响帕雷托最优,除了资源总量之外,还有它的评价标准

在学校,我们常用的评价标准就是排名,但是以排名作为评价标准,整个体系不会达到帕雷托最优,也不会出现帕雷托改进的情况。因为任何一个人名词的上升都会导致其他人名次的下降。

那么怎么才能让最多的人高兴呢?只能让第一名退后到最后一名,这样就会使得其他所有人都满意,但是这并没有解决问题,同样都会有新的第一名,新的第一名又退后到最后一名。

所以这种以排名作为评价标准,经常会出现均贫,仇富心理。那么不存在帕雷托最优,也不存在帕雷托改进,这对体系的发展是不好的。

但是,如果我们换一个评价标准,以知识积累作为评价标准,有利于体系的发展。

 

  • 6
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

水w

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值