囚徒困境，纳什均衡，帕雷托最优和帕雷托改进

最新推荐文章于 2025-02-20 03:28:58 发布

水w

最新推荐文章于 2025-02-20 03:28:58 发布

阅读量6k

点赞数 6

分类专栏： # 数据结构与算法文章标签：囚徒困境纳什均衡帕雷托最优和帕雷托改进

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45956730/article/details/127195741

版权

数据结构与算法专栏收录该内容

19 篇文章

订阅专栏

本文介绍了博弈论中的核心概念，包括囚徒困境、纳什均衡及帕雷托最优等，通过实例解析了个人与集体利益之间的关系，展示了如何通过理论指导实际决策。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

一、囚徒困境

二、纳什均衡

三、帕雷托最优和帕雷托改进

一、囚徒困境

参考囚徒困境_哔哩哔哩_bilibili

以前我们可能会听到有人说当每人追求自己的最大利益时，社会才会达到最好的利益？这种观点是不对的。那么我们用囚徒困境来反驳。

囚徒困境，是最经典的博弈论模型，探讨如何实现个人的利益最大化和如何实现集体的利益最大化。

如果同时合作，那么每人获得10年牢狱；
如果同时背叛，那么每人获得20年牢狱；

站在小红的角度上，他会想如果小蓝选择合作那么我最好选择背叛，这样只要坐5年的牢，而不是10年；如果小蓝选择背叛那么我最好也选择背叛，这样只要坐20年的牢，而不是30年。所以无论小蓝怎么选择，小红永远都会选择背叛，背叛是他的最优选择。同样的，小蓝也会这样想。

就这样，他们通过对自己的利益最大化考虑，会同时选择背叛，这样他俩的集体利益并不能达到最优，而是达到了最差，每人坐20年的牢。

通过上面的例子，我们可以看出，当每人追求自己的最大利益的时候，社会并不一定会达到最好的利益。也有很多相似的例子，比如自行车比赛或长跑比赛中，很多人不喜欢冲在第一的位置，而是喜欢跟跑。

二、纳什均衡

参考纳什均衡_哔哩哔哩_bilibili

纳什均衡的简单表示就是，每个人的策略都是对其他人的策略的最优反应。

◼ 以囚徒困境为例

囚徒困境中，双方同时选择背叛，就是一个纳什均衡。因为小红选择合作的时候，小蓝的最优反应就是背叛；小红选择背叛的时候，小蓝的最优反应依然还是背叛；所以小蓝对小红的所有最优反应都是被背叛。类似的，小红也是。

纳什均衡还有这样一个前提，在角色圈中的个体是独立的，不合作的，也不能相互沟通。然后没搞过个体在猜测其他个体做出的动作之后，给出自己的动作。通俗来说，给定你的策略，我的策略是最好的；给定我的策略，你的策略也是你最好的。即，双方在对方给定的策略下，不愿意调整自己的策略。

博弈双方都明白，谁改变策略谁就吃亏。

有些策略是有多个纳什均衡的。当一个博弈有多个纳什均衡点的时候，其实我们无法预测最终的结果。

比如我们更改一下囚徒困境的条件，如果一个人背叛另一个人合作的时候，背叛判处15年而不是5年，那么结果会怎么样呢？

站在小红的角度上，他会想如果小蓝选择合作那么我最好也选择合作，如果小蓝选择背叛那么我最好也选择背叛。同样的，小蓝也会这样想。

那么这四种情况都会出现，但是如果小红知道小蓝选择的策略，那么小红根据小蓝的策略选择自己的策略，同时合作和同时背叛都是趋于稳定的，就只会出现两种情况。这就是有多个纳什均衡点的例子。

◼ 以猎鹿为例

在上图的《论人类不平等的起源和基础》书中，也提到了一个例子：两个猎人，

如果同时射猎小鹿，那么每人获得2个价值；
如果同时射猎小兔子，那么每人获得1个价值；

这个例子，与更改过的囚徒困境是一样的，也是有2个纳什均衡点。

◼ 总结：

如果出现多个纳什均衡点，我们就需要通过其他途径来改变博弈条件或者获取共同信息，和对手达成共识，使博弈尽快达到均衡。
如果只有一个纳什均衡点，那么博弈的结果就是可预测的。

这样可以更好的帮助企业做出决策。

三、帕雷托最优和帕雷托改进

参考【科普】+帕雷托最优，利己不损人的理论_哔哩哔哩_bilibili

让我们来聊一聊帕雷托最优和帕雷托改进，在经济学和博弈论中，除了约翰纳什的纳什均衡以外，还有一个非常重要的概念：帕雷托最优和帕雷托改进，这两个概念可以帮助人们处理多目标任务，评价整个体系的优劣。

帕累托最优，在不损害其他人或任务的情况下，已经无法继续改善某些人或任务的境况。简单的说，就是“ 发展自己的同时不损害别人”。

比如现在我们有十个苹果，目前的情况是小红分到了6个，小蓝分到了3个，此时还没有达到帕雷托最优。

帕累托改进：达到帕雷托最优的过程。

这时，小红摘掉了树上最后一个苹果，就达到了帕雷托最优，这个举动就是帕雷托改进。

在达到了帕雷托最优的体系之后，如果小蓝想要增加自己的苹果数量，那么他只能去争抢小红的苹果。所以在达到了帕雷托最优的体系之后，体系的任何改变都会损害他人。

影响帕雷托最优，除了资源总量之外，还有它的评价标准。

在学校，我们常用的评价标准就是排名，但是以排名作为评价标准，整个体系不会达到帕雷托最优，也不会出现帕雷托改进的情况。因为任何一个人名词的上升都会导致其他人名次的下降。

那么怎么才能让最多的人高兴呢？只能让第一名退后到最后一名，这样就会使得其他所有人都满意，但是这并没有解决问题，同样都会有新的第一名，新的第一名又退后到最后一名。

所以这种以排名作为评价标准，经常会出现均贫，仇富心理。那么不存在帕雷托最优，也不存在帕雷托改进，这对体系的发展是不好的。

但是，如果我们换一个评价标准，以知识积累作为评价标准，有利于体系的发展。

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

水w 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。