博弈论学习（一）

最新推荐文章于 2024-07-08 22:12:26 发布

乌贼只会来冰山比武

最新推荐文章于 2024-07-08 22:12:26 发布

阅读量337

点赞数

分类专栏：决策文章标签：算法

本文链接：https://blog.csdn.net/qq_41566794/article/details/121696732

版权

本文介绍了博弈论的基本概念，包括策略式博弈、双人零和博弈和纳什均衡。以猎人狩猎和智猪博弈为例，阐述了劣势策略的选择和参与者如何在博弈中寻求自身利益最大化。纳什均衡被定义为每个参与者的策略是对其他参与者策略的最佳反应，是博弈可能的结果之一。

摘要由CSDN通过智能技术生成

如果一群猎人去猎一头鹿，他们完全清楚为了达成目标就必须要坚守自己的岗位；然而，对于个人而言，如果一个猎人在自己的眼前看到了一只兔子，他就会为了自己的利益最大去毫不犹豫地去追逐它，一旦他有了自己的猎物，就不会关心别人的收获。

一个最普通的博弈是：两个猎人决定猎杀目标。如果都决定好猎杀鹿或兔，那他们就平分收获（半只鹿或一人一只兔）；如果一个猎鹿一个猎兔，则前者一无所获后者得到一只野兔。

在这个例子中，猎人是参与人，每个参与者在两个策略中进行选择。一个鹿价值4个单位，一只兔价值1个单位。

卢梭博弈——合作，两个人都猎鹿，是一个纳什均衡，其中没有一个参与人有单方面改变策略的动机///但这并不唯一，如果每个人都相信对方会猎兔，那么对他自己来说猎兔就是最佳选择。

参与人集合 $i$ , 纯策略空间 $S_i$ ，收益函数 $\mu_i$

博弈的目标不是击败，而是每个参与人的目标是最大化自己的收益函数。至于对其他人的帮助或者妨碍，是附加而不是目标。

每个人的收益都是别人的损失，效用的收益是常数

策略M对于参与者2来说是严格劣的，所以理性的参与者2不采用M，参与者1知道参与者2不会采用M，对他来说，U是比M或D更好的选择。参与者2知道参与者1了解自己不会采用M，那么参与者2会知道参与者1会选择U，这样参与者2会采用L。

以上所述的剔除过程被称为重复优势，或者更准确地，重复严格优势（关键在于严格劣）

收益和策略空间是共同知识（假定一个人群由A、B两个人构成，A、B均知道某个事实f，此时f是A、B的知识，但f还不是他们的共同知识。当A、B双方都知道对方知道f，并且他们各自都知道对方知道自己知道f······，此时，我们才能说， f构成 A、B的共同知识。）

纳什均衡又称非博弈均衡，是一种策略组合，使得每一个参与人的策略是对其他参与人策略的最优反应。（此时效用最高）

关注