扩展式博弈与子博弈完美均衡:理论、方法与实践

扩展式博弈与子博弈完美均衡:理论、方法与实践

本文基于朱·弗登博格与让·梯若尔的经典博弈论框架,系统探讨扩展式博弈(Extensive Form Game)的动态交互逻辑及其均衡解概念。文章首先从博弈树信息集收益函数的数学定义出发,构建扩展式博弈的形式化模型,并深入分析多阶段博弈中的承诺策略精炼贝叶斯均衡。针对传统纳什均衡在动态场景中的局限性,引入子博弈完美均衡(Subgame Perfect Equilibrium, SPE)的核心思想,结合逆向递归法(Backward Induction)的逐步推导,阐明动态博弈的理性决策路径。

1. 扩展式博弈的基本框架

扩展式博弈(Extensive Form Game) 是描述动态交互过程的博弈模型,其核心要素包括:

  • 博弈树:由节点(决策点)和边(行动)构成的有向树
  • 信息集 H i H_i Hi:玩家在不同节点上的认知状态集合
  • 收益函数 u i u_i ui:终结点(Terminal Nodes)上的收益分配

数学表达式为:
Γ = ⟨ N , ( T , ≺ ) , P , { H i } , { u i } ⟩ \Gamma = \left\langle N, (T, \prec), P, \{ \mathcal{H}_i \}, \{ u_i \} \right\rangle Γ=N,(T,),P,{Hi},{ui}
其中 T T T 为节点集合, ≺ \prec 为节点间的顺序关系, P P P 为玩家分配函数。


2. 多阶段可观察行为博弈

2.1 承诺与精炼

在多阶段博弈中,承诺(Commitment) 是玩家通过限制自身未来行动来影响对手策略的手段。
精炼贝叶斯均衡(Perfect Bayesian Equilibrium, PBE) 要求:

  1. 序贯理性:每个信息集上的策略是最优的;
  2. 信念一致性:信念更新遵循贝叶斯规则。

示例:企业进入威慑

  • 在位者 威胁降价以阻止新企业进入;
  • 若进入发生,在位者选择降价(威胁可信需满足: π 降价 > π 合作 \pi_{\text{降价}} > \pi_{\text{合作}} π降价>π合作)。

3. 扩展式博弈的策略与均衡

3.1 行为策略与混合策略

  • 行为策略:玩家在每个信息集上定义行动概率分布:
    σ i : H i → Δ ( A ( h ) ) \sigma_i: H_i \rightarrow \Delta(A(h)) σi:HiΔ(A(h))
  • 混合策略:在博弈开始时随机选择完整行动计划。

3.2 纳什均衡的局限性

在动态博弈中,纳什均衡可能包含不可信威胁。例如:

  • 连锁店悖论:在位者威胁惩罚所有进入者,但实际执行成本过高。

4. 子博弈完美均衡与逆向递归法

4.1 子博弈完美均衡(SPE)

定义:策略组合 σ ∗ \sigma^* σ 是 SPE,当且仅当它在所有子博弈中构成纳什均衡。
存在性定理(Selten, 1965):有限完美信息扩展式博弈至少存在一个 SPE。

4.2 逆向递归法(Backward Induction)

步骤

  1. 从博弈树的终结点开始,计算最后一层玩家的最优策略;
  2. 逆向推导前一层的策略,直至根节点。

公式化:对每个子博弈 G ′ G' G,求解:
σ i ∗ ( h ) = arg ⁡ max ⁡ a i ∈ A ( h ) u i ( a i , σ − i ∗ ∣ h ) \sigma_i^*(h) = \arg\max_{a_i \in A(h)} u_i(a_i, \sigma_{-i}^* | h) σi(h)=argaiA(h)maxui(ai,σih)


5. 经典案例分析

5.1 三阶段讨价还价模型

  • 玩家:提议者(Player 1)与响应者(Player 2)
  • 阶段
    1. Player 1 提出分配方案 ( x , 1 − x ) (x, 1-x) (x,1x)
    2. Player 2 接受或拒绝;
    3. 若拒绝,Player 2 提出新方案 ( y , 1 − y ) (y, 1-y) (y,1y),Player 1 决策。

逆向递归求解

  • 第3阶段:Player 1 接受任意 y ≥ 0 y \geq 0 y0
  • 第2阶段:Player 2 提出 y = 0 y = 0 y=0,Player 1 接受;
  • 第1阶段:Player 1 提出 x = 1 x = 1 x=1,Player 2 接受。
    SPE 结果:先动者获得全部收益。

5.2 战争博弈:可信威慑

  • 博弈结构
    1. 国家A决定是否进攻;
    2. 若进攻,国家B选择反击或妥协。
  • 收益矩阵
A\B反击妥协
进攻(-5, -5)(3, -2)
不进攻(0, 0)(0, 0)

SPE 分析

  • 若 B 的威胁“反击”可信(即 u B ( 反击 ) > u B ( 妥协 ) u_B(\text{反击}) > u_B(\text{妥协}) uB(反击)>uB(妥协)),A 选择不进攻;
  • 否则,A 选择进攻。

6. 对逆向递归法的批评

6.1 多重均衡问题

在复杂博弈中,逆向递归法可能无法排除非直觉均衡。例如:

  • 蜈蚣博弈:理论上存在合作路径,但实验显示玩家常提前终止。

6.2 非完美信息限制

逆向递归法要求完美信息,而在信息不对称时(如扑克牌博弈),其适用性受限。


参考文献

  • 朱·弗登博格, 让·梯若尔. 《博弈论》[M]. 中国人民大学出版社, 2010.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值