扩展式博弈与子博弈完美均衡:理论、方法与实践
本文基于朱·弗登博格与让·梯若尔的经典博弈论框架,系统探讨扩展式博弈(Extensive Form Game)的动态交互逻辑及其均衡解概念。文章首先从博弈树、信息集与收益函数的数学定义出发,构建扩展式博弈的形式化模型,并深入分析多阶段博弈中的承诺策略与精炼贝叶斯均衡。针对传统纳什均衡在动态场景中的局限性,引入子博弈完美均衡(Subgame Perfect Equilibrium, SPE)的核心思想,结合逆向递归法(Backward Induction)的逐步推导,阐明动态博弈的理性决策路径。
1. 扩展式博弈的基本框架
扩展式博弈(Extensive Form Game) 是描述动态交互过程的博弈模型,其核心要素包括:
- 博弈树:由节点(决策点)和边(行动)构成的有向树
- 信息集 H i H_i Hi:玩家在不同节点上的认知状态集合
- 收益函数 u i u_i ui:终结点(Terminal Nodes)上的收益分配
数学表达式为:
Γ
=
⟨
N
,
(
T
,
≺
)
,
P
,
{
H
i
}
,
{
u
i
}
⟩
\Gamma = \left\langle N, (T, \prec), P, \{ \mathcal{H}_i \}, \{ u_i \} \right\rangle
Γ=⟨N,(T,≺),P,{Hi},{ui}⟩
其中
T
T
T 为节点集合,
≺
\prec
≺ 为节点间的顺序关系,
P
P
P 为玩家分配函数。
2. 多阶段可观察行为博弈
2.1 承诺与精炼
在多阶段博弈中,承诺(Commitment) 是玩家通过限制自身未来行动来影响对手策略的手段。
精炼贝叶斯均衡(Perfect Bayesian Equilibrium, PBE) 要求:
- 序贯理性:每个信息集上的策略是最优的;
- 信念一致性:信念更新遵循贝叶斯规则。
示例:企业进入威慑
- 在位者 威胁降价以阻止新企业进入;
- 若进入发生,在位者选择降价(威胁可信需满足: π 降价 > π 合作 \pi_{\text{降价}} > \pi_{\text{合作}} π降价>π合作)。
3. 扩展式博弈的策略与均衡
3.1 行为策略与混合策略
- 行为策略:玩家在每个信息集上定义行动概率分布:
σ i : H i → Δ ( A ( h ) ) \sigma_i: H_i \rightarrow \Delta(A(h)) σi:Hi→Δ(A(h)) - 混合策略:在博弈开始时随机选择完整行动计划。
3.2 纳什均衡的局限性
在动态博弈中,纳什均衡可能包含不可信威胁。例如:
- 连锁店悖论:在位者威胁惩罚所有进入者,但实际执行成本过高。
4. 子博弈完美均衡与逆向递归法
4.1 子博弈完美均衡(SPE)
定义:策略组合
σ
∗
\sigma^*
σ∗ 是 SPE,当且仅当它在所有子博弈中构成纳什均衡。
存在性定理(Selten, 1965):有限完美信息扩展式博弈至少存在一个 SPE。
4.2 逆向递归法(Backward Induction)
步骤:
- 从博弈树的终结点开始,计算最后一层玩家的最优策略;
- 逆向推导前一层的策略,直至根节点。
公式化:对每个子博弈
G
′
G'
G′,求解:
σ
i
∗
(
h
)
=
arg
max
a
i
∈
A
(
h
)
u
i
(
a
i
,
σ
−
i
∗
∣
h
)
\sigma_i^*(h) = \arg\max_{a_i \in A(h)} u_i(a_i, \sigma_{-i}^* | h)
σi∗(h)=argai∈A(h)maxui(ai,σ−i∗∣h)
5. 经典案例分析
5.1 三阶段讨价还价模型
- 玩家:提议者(Player 1)与响应者(Player 2)
- 阶段:
- Player 1 提出分配方案 ( x , 1 − x ) (x, 1-x) (x,1−x);
- Player 2 接受或拒绝;
- 若拒绝,Player 2 提出新方案 ( y , 1 − y ) (y, 1-y) (y,1−y),Player 1 决策。
逆向递归求解:
- 第3阶段:Player 1 接受任意 y ≥ 0 y \geq 0 y≥0;
- 第2阶段:Player 2 提出 y = 0 y = 0 y=0,Player 1 接受;
- 第1阶段:Player 1 提出
x
=
1
x = 1
x=1,Player 2 接受。
SPE 结果:先动者获得全部收益。
5.2 战争博弈:可信威慑
- 博弈结构:
- 国家A决定是否进攻;
- 若进攻,国家B选择反击或妥协。
- 收益矩阵:
A\B | 反击 | 妥协 |
---|---|---|
进攻 | (-5, -5) | (3, -2) |
不进攻 | (0, 0) | (0, 0) |
SPE 分析:
- 若 B 的威胁“反击”可信(即 u B ( 反击 ) > u B ( 妥协 ) u_B(\text{反击}) > u_B(\text{妥协}) uB(反击)>uB(妥协)),A 选择不进攻;
- 否则,A 选择进攻。
6. 对逆向递归法的批评
6.1 多重均衡问题
在复杂博弈中,逆向递归法可能无法排除非直觉均衡。例如:
- 蜈蚣博弈:理论上存在合作路径,但实验显示玩家常提前终止。
6.2 非完美信息限制
逆向递归法要求完美信息,而在信息不对称时(如扑克牌博弈),其适用性受限。
参考文献
- 朱·弗登博格, 让·梯若尔. 《博弈论》[M]. 中国人民大学出版社, 2010.