博弈论
子博弈精炼纳什均衡
- 子博弈:一个扩展式表示博弈的子博弈G是由一个单结信息集x开始的与所有该决策结的后续结(包括终点结)组成的能自成一个博弈的原博弈的一部分。
- 只有当参与人的策略在每一个子博弈中都构成纳什均衡叫做精炼纳什均衡。或者说,组成精炼纳什均衡的策略必须在每一个子博弈中都是最优的。
- 举例:囚徒困境-无限次:子博弈纳什均衡就是隐瞒隐瞒,如果坦白,后受到后期的报复,个人收益降低,所以隐瞒为子博弈精炼纳什均衡
无限次重复囚徒困境
猎鹿博弈重复博弈
- 无Gift:重复猎兔猎兔的纳什均衡
- 有Gift:单一状态Gift可能不为0,为了后面的合作,获取更高的收益,相当于引入了新的纳什均衡点
强化学习+博弈论
拓展-1
Bi-level Actor-Critic for Multi-agent Coordination
- Stackelberg均衡-协同博弈:多个均衡点,收敛到收益最高的那个纳什均衡点。
- 在该博弈模型中,先作出决策的一方被称为leader,在leader之后,剩余的players根据leader的决策进行决策,被称为followers,然后leader再根据followers的决策对自己的决策进行调整,如此往复,直到达到纳什均衡。
- SE的第一个优势是确定性或独特性。一个游戏中可能存在多个NEs,而多个se只能在非常严格的条件下存在。
- SE的第二个优点是性能。在协调环境中,SE比平均NE具有更好的帕累托优势。一个极端的例子是合作游戏。在合作博弈中,SE总是达到帕累托最优点,而只有最佳NE达到帕累托最优.
拓展-2
Probalistic Recursive Reasoning for Multi-Agent Reinforcement"(ICLR 2019)
- 协同问题: 多个均衡,如何选取?如下两种博弈都是有多个均衡的情况,左边的是两车会车的情况,两车都选左和都选右,那就能过得去,否则就撞车了,右边是斗车的情况,一辆变道就都不会碰撞,于是纳什均衡也有两个,也就是其中一辆车主动变道。
那么到底该如何选取呢?这种问题是无法在基本假设的清苦下去选取的,那么只好修改基本设定,例如:引入通讯机制,商议一下;或者设定一些社会规则,以此使得两方达到好的均衡。
拓展-3
+
- 合作博弈:合作博弈中允许参与者互相协调,结盟以提高自身利益。合作博弈与非合作博弈的区别在于非合作博弈强调个体理性,而合作博弈强调集体理性。从另一个方面理解:存在具有约束力的合作协议的博弈就是合作博弈。
- 合作博弈形成条件:
- .联盟的整体收益大于每个个体单独经营收益之和
- 每个参与者都能获得比不加入联盟更高的收益
未来工作
- Gift+纯策略+重复博弈 新纳什均衡点
- 理论++实验
- 依照原文、其他证明方法