博弈论——扩展式博弈(Extensive Game)

版权声明:本文为原创文章,未经博主允许不得用于商业用途。

基本概念

  • 在扩展式博弈中,玩家按照博弈的进程在不同阶段进入决策而不是同时决策,因此决策实际上是一个树形结构,博弈从根节点开始,沿一条路径到达叶节点结束。

    • 非叶节点处某一玩家做出决策
    • 不同分支为不同决策后博弈的走向
    • 叶节点为博弈结果
  • 在普通博弈基础上扩展式博弈的组成增加了:

    • 历史(Histories)H:从根节点到当前决策节点的路径中经过的决策的序列(有序集)。特别的,根节点历史为 ϕ \phi ϕ
    • Player Function: P ( h ) P(h) P(h)表示在历史h后进行决策的玩家。
  • 因此扩展式博弈可以表示为: G = { N , H , P , { u i } } G=\{N,H,P,\{u_i\}\} G={N,H,P,{ui}}

例如在如下博弈中:
在这里插入图片描述
N = { 1 , 2 } N=\{1,2\} N={1,2}

H = { ϕ , A , B , A L , A R } H=\{\phi,A,B,AL,AR\} H={ϕ,A,B,AL,AR}

P : P ( ϕ ) = 1 ; P ( A ) = 2 P:P(\phi)=1; P(A)=2 P:P(ϕ)=1;P(A)=2

  • 纯策略:玩家i的纯策略可以定义为: × h ∈ H { a S : ( h , a S ) ∈ H , P ( h ) = i } \times_{h\in H}\{a^S:(h,a^S)\in H,P(h)=i\} ×hH{aS:(h,aS)H,P(h)=i},即所有决策玩家为i的节点决策集的笛卡儿积。(按照从根节点开始按层次书写)

    • 纯策略的纳什均衡可由列表法直接计算得出。
    • 定理:完全信息的扩展式博弈至少存在一个纯策略纳什均衡(因为每个节点都必须要选出一个最佳策略)
  • initial history: A ( h ) = { a : ( h , a ) ∈ H } A(h)=\{a:(h,a)\in H\} A(h)={a:(h,a)H},即h后的所有候选决策集。

  • terminal history set: Z = { ( a 1 . . . a i ) : i → inf ⁡   o r   a i + 1 ∉ H } Z=\{(a^1...a^i):i\rightarrow \inf\ or\ a^{i+1}\notin H\} Z={(a1...ai):iinf or ai+1/H}

  • 博弈长度: l ( G ) = max ⁡ h ∈ H { ∣ h ∣ } l(G)=\max\limits_{h\in H}\{|h|\} l(G)=hHmax{h},即博弈树高度

  • s i s_i si为玩家i的纯策略,则定义 s i ( h ) = a , a ∈ A ( h ) , a ∈ s i , P ( h ) = i s_i(h)=a,a\in A(h),a\in s_i, P(h)=i si(h)=a,aA(h),asi,P(h)=i,即玩家i在策略 s i s_i si下在h的终点节点所做选的策略。

子博弈
  • 子博弈(Subgame):即博弈树的一个高度大于1的子树。特别的,博弈树也是一个子博弈。

    • 子博弈可表示为 G ( h ) = { N , H ∣ h , P ∣ h , { u i ∣ h } } G(h)=\{N,H|_h,P|_h,\{u_i|_h\}\} G(h)={N,Hh,Ph,{uih}}
    • s i ∣ h ( h ′ ) = s i ( h , h ′ ) s_i|_h(h')=s_i(h,h') sih(h)=si(h,h)
  • 子博弈完美均衡(Subgame Perfect Equilibrium):博弈结果为为子博弈完美的当且仅当每一个子博弈都达到纳什均衡。

    • 定理:完全信息的扩展式博弈中一定存在完美子博弈
    • SPE可以通过后向归纳法求得,即不断用子博弈的均衡结果代替子树,直到到达根节点。
  • 单步偏离原则(One Deviation Principlr):

    s   i s   S P E    ⟺    ∀ i ∈ N , ∀ h ∈ { H − Z }   s . t . P ( h ) = i s\ is\ SPE\iff\forall i\in N, \forall h\in \{H-Z\}\ s.t.P(h)=i s is SPEiN,h{HZ} s.t.P(h)=i

    u i ∣ h ( s i ∗ ∣ h , s − i ∗ ∣ h ) ≥ u i ∣ h ( s i , s − i ∗ ∣ h ) u_i|_h(s^*_i|_h,s^*_{-i}|h)\geq u_i|_h(s_i,s^*_{-i}|h) uih(sih,sih)uih(si,sih),其中 s i 和 s i ∗ s_i和s_i^* sisi只在 A ( h ) A(h) A(h)中选取不同决策。

    即对有限博弈树,判断是否为SPE只需考虑当前节点决策是否最优,而不需要考虑历史决策。

例题

主从博弈(Stackleberg Competition)

规则和古诺均衡类似,两家公司决定产量,不过Player1先决定产量以后Player2再决定产量。

收益满足 u i ( q 1 , q 2 ) = ( m a x { 0 , a − b ( q 1 + q 2 ) } − c ) q i u_i(q_1,q_2)=(max\{0,a-b(q_1+q_2)\}-c)q_i ui(q1,q2)=(max{0,ab(q1+q2)}c)qi

  • Player2:对于Player2决策节点构成的子博弈, q 1 q_1 q1为已知量,最大收益为导数为0时,因此 q 2 = ( a − c − b q 1 ) / 2 b q_2=(a-c-bq_1)/2b q2=(acbq1)/2b,和古诺均衡一致。
  • Player1:由后向归纳法,可以将Player2决策的节点收缩为收益为 ( a − c − b q 1 ) / 2 b (a-c-bq_1)/2b (acbq1)/2b的叶节点,因此此时Player1的收益为 ( a − b ( q 1 + a − c − b q 1 2 b ) − c ) q 1 (a-b(q_1+\frac{a-c-bq_1}{2b})-c)q_1 (ab(q1+2bacbq1)c)q1,导数为零时 q 1 = a − c 2 b q_1=\frac{a-c}{2b} q1=2bac
  • 回代得, q 2 = a − c 4 b q_2=\frac{a-c}{4b} q2=4bac,Player1收益更多。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值