读书笔记: 博弈论导论 - 总结
总结
本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记的总结。
博弈论
博弈论是关于智能理性决策者的协作和冲突的数学模型的研究。
博弈论的目的可以说是研究寻找博弈均衡的方法。
博弈论的直接目标不是找到一个玩家的最佳策略,而是找到所有玩家的最理性策略组合。
我们称最理性策略组合为均衡。
博弈论(也叫逆向博弈论)的另外一个作用是机制设计,根据期望的结果,设计一个博弈体系。
博弈论的分类
这本书中将博弈论的只是分为四类:
- 完整信息的静态博弈
- 完整信息的动态博弈
- 不完整信息的静态博弈
- 不完整信息的动态博弈
博弈论的数学模型
- 普通形式博弈(normal-form game)的数学表达
- 一个有限的玩家集合, \(N = {1, 2, \cdots, n}\)
- 每个玩家的纯策略集合的组合, \({S_1, S_2, \cdots, S_n}\)
- 一套收益函数, \({v_1, v_2, \cdots, v_n}\),对于每个玩家,每一种所有玩家选择的策略组合,都有一个收益值。
$v_i: S_1 \times S_2 \times \cdots \times S_n \text{ for each } i \in N $
- 贝叶斯博弈(Bayesian Game)
用于描述不完整信息博弈。
\[ \left \langle N, \{ A_i \}_{i=1}^n, \{ \Theta_i \}_{i=1}^n, \{ v_i(\cdot; \theta_i), \theta_i \in \Theta_i \}_{i=1}^n, \{ \phi_i \}_{i=1}^n \right \rangle \\ where \\ N = \{ 1,2,\cdots, n\} \text{ : is the set of players} \\ A_i \text{ : the action set of player i} \\ \Theta_i \text{ : the type space of player i} \\ v_i : A \times \Theta_i \to \mathbb{R} \text{ : type dependent pay of function of player i} \\ \phi \text{ : the belief of player i with respect to the uncertainty over the other players' types} \\ \phi(\theta_{-i} | \theta_i) \text{ : the posterior conditional distribution on } \theta_{-i} \]
术语
静态博弈(static game) vs 动态博弈(dynamic game)
静态博弈指所有玩家同时、独立做出选择。也叫做同时博弈(Simultaneous game)
动态博弈指所有玩家按照次序做出选择。也叫做序贯博弈(Sequential game)、序列博弈。完整信息博弈(Complete information game) and 不完整信息博弈(Incomplete information game)
完整信息博弈是指所有知识被所有玩家都了解,就是成为了公共知识。
不完整信息博弈是指一个玩家不知道其他玩家的部分信息(actions, outcomes, payoffs)。完美信息博弈(Information perfect game) vs 不完美信息博弈(Information imperfect game)
完美信息博弈指一个玩家知道对手做出了选择,并且知道对手的选择是什么。比如:围棋。
不完美信息博弈指一个玩家知道对手做出了选择,但是不知道对手的选择是什么。比如:德州扑克。普通形式博弈(Normal-Form Game) vs 扩展形式博弈(Extensive-Form Game)
博弈的数学化定义方式。
普通形式博弈比较简单,适用描述信息较少的情况,比如:两个玩家的纯策略的静态博弈。
扩展形式博弈用于形式化描述博弈。无论完美信息还是不完美信息,完整信息还是不完整信息都可以。
针对不完美信息,支持信息集的概念。
针对不完整信息,支持Nature和类型概念。Subgame-perfect equilibrium
这里主要说perfect这个词,这个词和equilibrium用在一起时,常常有精炼(refinement)的意思,表示优化均衡的结果。序贯(sequential)
序贯表示连续的。信念(beliefs),
玩家i的一个信念就是他的对手们的一个可能的策略组合。最佳反应(Best Response)
当其他玩家策略已知时,玩家i的优势策略就是其最佳反应。
这是博弈论的中心。理性,序贯理性的意味就是最佳反应。均衡的结果也来自于最佳反应。
最佳反应:对于玩家i,给定其对其他玩家的信念,他会选择在这个信念上对自己最好的行为。序贯理性(Sequential Rationality)
在博弈中的每个阶段,玩家都保持理性。信任系统(a system of beliefs)
对每个信息集上一个行动的选择概率。见后面的数学定义。信誉(Reputation)
在博弈论中,玩家为了证明自己的信誉(自己的类型),会选择一种行为,这种行为只会对自己的类型有益,而对其它类型有损失。
经典博弈问题
- 囚徒困境(Prisoner's Dilemma)
两个囚徒选择沉默(mum)和告密(flink)的一个静态博弈问题。
玩家2 |
---|