博弈论和信息熵是我觉得最神奇的数学!
我的上课的学习笔记
前言
什么是博弈论?
博弈即Game
- 2-player game
- n-player game
计算机科学中的博弈问题
博弈场景
博弈论是相对对独立的、自利的个体之间相互作用的数学研究,所以这种由统一编程协作工作的应用场景不是博弈。
博弈模型分类
一些例子
-
猜拳游戏(正则型博弈)
纯竞争关系,没有共赢。 -
囚徒困境(正则型博弈)
-
AlphaGo(扩展型博弈)
因为下棋是一步一步来的,无法再用矩阵进行描述,因此采用博弈树的方法进行描述。解决博弈树问题的常规策略是逆向归纳法,但是在这个问题中逆向归纳法的搜索空间达到 25 0 150 250^{150} 250150,因此不能使用这种方法。AlphaGo使用的是卷积神经网络的方法。 -
多智能体强化学习(其他类型)
-
联邦学习(其他类型)
智能体决策
对每个决策可以描述成一个智能体。
- 决策在环境中采取一个动作,这个动作被解释为一个奖励和一个状态转换,然后反馈给下一个动作。
- 决策的目标是寻找一个政策和一个状态转移模型,从而使期望累积报酬最大化
单智能体→多智能体
研究理性决策者之间的竞争或合作,考虑他们的偏好、知识、战略行动,以及这些因素如何影响结果,可以分为两类:
- 非合作博弈,个体博弈
- 合作博弈,玩家联盟之间的竞争
本门课更多的考虑非合作博弈。
博弈表示方法
- 一个人需要知道一些关于这个游戏的东西
- 玩家是谁
- 玩家可以采取哪些行动
- 每个玩家对每个结果的重视程度
- 每个玩家都知道什么
- 根据以上的信息有两种博弈的表示
- 正则型(或策略型)博弈,上述信息可以用矩阵表示
- 扩展型博弈,利用博弈树和信息集对上述信息进行显式描述
正则型博弈
- 定义
- 囚徒困境
- 特殊的正则型博弈
- 纯合作博弈
- 纯竞争博弈
- 博弈纯策略与混合策略
帕雷托最优
当只有一个决策者时可以选择使决策者收益最大的决策,而当存在多个决策者时,彼此之间的收益会有冲突,彼此之间也不能比较,但有些情况还是可以判断优劣的,在这种情况下,进行优化就是帕雷托最优,即不改变其他决策者的利益的情况下,能提高某些决策者的利益。
总的来说,帕雷托最优的条件是只要决策改变,会损害任意一个决策者的情况,那么当前状态就是帕雷托最优。
以囚徒困境问题举例,绿色圈圈的状态就是帕雷托最优,该问题中共有三个帕雷托最优。
帕雷托最优的思想:帕雷托最优虽然是最优但只是一个最低标准,满足帕雷托最优的不一定是最优决策,不满足帕雷托最优的一定不理想。
纳什均衡
系统达到稳定的状态。
纳什均衡更符合个人选择,尽管最后的结果并不是帕雷托最优。
举一些例子
- 囚徒困境
- 猎鹿赛局
- 性别之战
男女看电影,如果有分歧则都没有收益,不同的选择对彼此的收益不同。
这个例子中有两个纳什均衡,一个是纯策略纳什均衡,一个是混合策略纳什均衡。
- 猜拳游戏
不存在纯策略的纳什均衡。
但存在混合策略纳什均衡,每个行动的概率为1/3时达到混合策略纳什均衡。即纯随机的出,才能势均力敌。 - 赌便士游戏(零和博弈)
同样没有纯纳什均衡,只有混合策略纳什均衡。
纳什均衡存在定理
如何理解混合策略纳什均衡?
- 一个博弈的混合策略可以被看作是其他人对博弈执行每一个纯策略的可能性的评估
- 如果游戏被反复玩了很多次,那么纯策略的概率就是它在极限内玩的时间的频率
- 如果决策是从一个大的群体中随机选择的,其中每个决策都扮演一个纯策略,那么纯策略的概率代表了执行该策略的频率。
(这里翻译不太准确,还是看英文原文比较好)总的来说我认为混合决策就是执行纯策略的概率的集合。
Maxmin/Minmax策略
MiniMax定理
纳什均衡与鞍点
MiniMax遗憾
考虑存在一些不确定的因素。
优势/劣势策略
优势策略就是更好的策略。同样定义了劣势策略,劣势策略可以帮助简化问题。
相关均衡
根据一个外部触发时间的结果再去做决策,比如男女选择看电影的问题,直接仍硬币就可以决定,往往可以得到更好的结果。
颤抖手精炼均衡
比如两个人在博弈的过程中有一些小扰动,小波动,但这个博弈一直在继续,但最终会趋近到某个稳定的策略。(弱纳什均衡)
内容总结
- 基本的概念和定义
博弈与决策者,行动与策略,惩罚或收益,博弈的分类 - 正则化博弈
帕雷托最优,最优反应,纳什均衡 - 进一步解决方案和概率
最大化最小收益和最小化最大收益策略,最小化最大遗憾,优势和劣势策略,相关均衡,颤抖手精炼均衡 。
图片来自老师上课ppt,如有侵权立即删除。