博弈论之 1 什么是博弈论

最新推荐文章于 2022-11-02 08:54:42 发布

水w

最新推荐文章于 2022-11-02 08:54:42 发布

阅读量810

点赞数

分类专栏：学习

本文链接：https://blog.csdn.net/qq_45956730/article/details/126463845

版权

学习专栏收录该内容

17 篇文章 3 订阅

订阅专栏

博弈论

◼ 单智能体 → 多智能体单智能体 → 多智

什么是博弈论

博弈论 (Game Theory)，又称为对策论、赛局理论等，既是现代数学的一个新分支，也是运

筹学的一个重要学科。

➢ 博弈论主要研究公式化了的激励结构间的相互作用，是研究具有斗争或竞争性质现象的数学理论和方法。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。

➢ 博弈论已经成为经济学的标准分析工具之一。其在金融学、证券学、生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。

1 博弈即"Game"

2 计算机科学中的博弈问题

◼ 博弈场景？

• 严格来讲，统一控制调度或统一预编程 → 不是。

独立的，自私的智能体相互之间的作用

◼ 博弈模型分类

◼ 举例:

（1）猜拳游戏：

零和正则型博弈，用矩阵做描述

（2）囚徒困境：

一般和（非零和）的正则型博弈

四种情况：

A和B都不坦白，每人1year；
A坦白被释放，则B获刑20year；
A和B互相指认，则每人5year；
B坦白被释放，则A获刑20year；

（3） AlphaGo (围棋)：

有先后顺序做决策，用树型做描述---->扩展型博弈

完美信息

https://towardsdatascience.com/game-theory-concepts-within-alphago-2443bbca36e0

（4）Suphx (麻将)

非完美信息：做博弈时不具备完整的信息，有很多牌看不到

（5）多智能体强化学习

有多个智能体，每个智能体做出Markov decision，最后决策合并。---->Markov博弈

（6）联邦学习/群智感知

系统里包含多个部分，一起协作，主从关系。---->Stackeberg博弈

3 智能体决策

决策者应该理性来做出决策，希望决策能够最大化性能指标，能有更好的收益。

决策者可以基于当前的系统状态，选择下一步的走法，做出下一步决策之后会触发新的状态转移，当前的系统状态会发生变化，会得到相应的奖励，此时决策本身就是理性的，希望决策能够最大化收益。

◼ 单智能体 → 多智能体单智能体 → 多智

一些决策者可以组成小的联盟，这些联盟内部合作，但联盟之间还是竞争关系，----->协作博弈

4 博弈表示方法

◼ 正则型博弈

至少需要知道：

决策者集合，决策者的个数；
每个决策者的行动集合；
每一个决策者能得到多少收益或奖励；

举例：囚徒困境

◼ 特殊的正则型博弈

（1）Common-payoff game

纯合作关系：两个司机可以同时决定到底时靠左走还是靠右走，不会相撞。--------双赢或双输

（2）Constant-sum game

每个人的收益之后时是一个常数（=0时为零和博弈）

猜硬币，两人同时扔硬币，谁赢了（1）拿走对方的硬币。-----我赢你输

5 博弈纯策略与混合策略

两种：

纯策略：混合策略的一个特殊情况。策略固定，具体的一个行动；
混合策略：实际上一个概率分布，做决策时，我的决策是行动上的一个概率分布，而不是具体的一个行动。
support

6 帕雷托最优

帕雷托最优只是各种理想态标准中的 最低标准。

➢ 一种状态如果尚未达到帕雷托最优，那么它一定不理想，因为还存在改进的余地，可以

在不损害任何人的前提下使某一些人的福利得到提高。

➢ 但是一种达到了帕雷托最优的状态并不一定真的很理想：例如，假设一个社会里只有一

个百万富翁和一个快饿死乞丐，如果富翁拿出自己财富的万分之一，就可以使乞丐免于死亡。但是因为这样无偿的财富转移损害了富翁的福利，所以进行这种财富转移并不是帕雷托改进，而这个只有一个富翁和一个乞丐的社会可以被认为是帕雷托最优。如果按功利主义的标准，理想的状态是使社会的福利总和最大化的状态。如果富翁损失很少的福利，却能够极大地增加乞丐的福利，使其免于死亡，那么从功利主义的角度看，这样的财富转移是一种改善。

➢ 帕雷托改进要求在提高某一些人的福利的同时不能减少任何一个人的福利，而功利主义则允许为了提高社会的福利总和而减少一些人的福利。