博弈论——非完全信息博弈

版权声明:本文为原创文章,未经博主允许不得用于商业用途。

​ 在实际情况中,博弈对手的收益大多为不可见的,即每个玩家有公共信息和私有信息。

贝叶斯博弈

基本概念
  • 在贝叶斯博弈中为每位玩家增加一个类型空间 Θ i \Theta_{i} Θi包含其所有的私有信息(针对不同策略的不同收益函数)

  • 所有玩家类型空间的选择满足概率分布 p = p ( θ 1 , . . . , θ N )   o n   × i = 1... n Θ i p=p(\theta_{1},...,\theta_{N})\ on\ \times_{i=1...n}\Theta_{i} p=p(θ1,...,θN) on ×i=1...nΘi

  • 玩家i的一种纯策略 a i = ( a i ( θ i 1 ) , a i ( θ i 2 ) , . . . , a i ( θ i n i ) ) a_{i}=(a_{i}(\theta_i^1),a_i(\theta_i^2),...,a_i(\theta_i^{n_i})) ai=(ai(θi1),ai(θi2),...,ai(θini)),其中 n i n_i ni为玩家i类型空间的大小(可以看成 Θ i → A i \Theta_i\rightarrow A_i ΘiAi的映射)。

  • 收益函数可以写作 u i ( a 1 , . . . a N , θ 1 , . . . , θ N ) , θ i ∈ Θ i u_i(a_1,...a_N,\theta_1,...,\theta_N),\theta_i \in \Theta_i ui(a1,...aN,θ1,...,θN),θiΘi,即针对每一种博弈结果,玩家的每种类型都有一个收益。

  • 贝叶斯博弈中类型空间的选取满足贝叶斯公式,即 p ( θ − i ∣ θ i ) = p ( θ i , θ − i ) p ( θ i ) p(\theta_{-i}|\theta_i)=\frac{p(\theta_i,\theta_{-i})}{p(\theta_i)} p(θiθi)=p(θi)p(θi,θi)

  • 博弈结果需要每位玩家在每个类型上选择一种最优策略,因此最终结果表示为 ( ( a 1 ( θ 1 1 ) , . . . , a 1 ( θ 1 n 1 ) ) , . . . , ( a N ( θ N 1 ) , . . . , a N ( θ N n N ) ) ((a_1(\theta_1^1),...,a_1(\theta_1^{n_1})),...,(a_N(\theta_N^1),...,a_N(\theta_N^{n_N})) ((a1(θ11),...,a1(θ1n1)),...,(aN(θN1),...,aN(θNnN))

  • 玩家i某一类型收益为所有其余玩家所有策略的期望: U i ( a i ( θ i ) , a − i ) = ∑ θ − i p ( θ − i ∣ θ i ) u i ( a − i ( θ − i ) , a i , θ − i , θ i ) U_i(a_i(\theta_i),a_{-i})=\sum_{\theta_{-i}}p(\theta_{-i}|\theta_i)u_i(a_{-i}(\theta_{-i}),a_i,\theta_{-i},\theta_i) Ui(ai(θi),ai)=θip(θiθi)ui(ai(θi),ai,θi,θi)

    综上,贝叶斯博弈可以表示为 G = { N , { A i } , { Θ i } , { u i } , p } G=\{N,\{A_i\},\{\Theta_i\},\{u_i\},p\} G={N,{Ai},{Θi},{ui},p}

例题1:

Bank Runs

两名客户在银行中都有100的资产,如果遇到好的银行家则两人都可以获得150,否则失去所有资产。

客户可以取出自己的存款,但银行只有100的资金,一个取出另一个资产为0,如果两个人都选择取出则每人获得50。

其中:Player1以概率p相信银行家,Player2知道银行家的好坏。

化规为贝叶斯博弈:

策略集为: A 1 = A 2 = W , N A_1=A_2={W,N} A1=A2=W,N(W即withdraw, N即not)

类型空间为: Θ 1 = { 1 } , Θ 2 = { G , B } \Theta_1=\{1\},\Theta_2=\{G,B\} Θ1={1},Θ2={G,B},Player1只有一种类型,Player2具有类型G(好银行家)和B(坏银行家)

概率分布只针对玩家1, p 1 ( θ 2 = G ) = p p_1(\theta_2=G)=p p1(θ2=G)=p

则:

  • 如果Player1选择W,则玩家2最优策略为: B 2 ( W , G ) = { W } ;   B 2 ( W , B ) = { W } B_2(W,G)=\{W\}; \ B_2(W,B)=\{W\} B2(W,G)={W}; B2(W,B)={W}。则:
    • U 1 ( W , B 2 ) = 50 p + 50 ( 1 − p ) = 50 U_1(W,B_2)=50p+50(1-p)=50 U1(W,B2)=50p+50(1p)=50
    • U 1 ( N , B 2 ) = 0 p + 0 ( 1 − p ) = 0 U_1(N,B_2)=0p+0(1-p)=0 U1(N,B2)=0p+0(1p)=0

显然此时Player1无理由更换策略,因此达到贝叶斯纳什均衡。

  • 如果Player1选择N,则玩家2最优策略为: B 2 ( N , G ) = { N } : B 2 ( N , B ) = { W } B_2(N,G)=\{N\}:B_2(N,B)=\{W\} B2(N,G)={N}:B2(N,B)={W}。则:
    • U 1 ( W , B 2 ) = 100 p + 50 ( 1 − p ) U_1(W,B_2)=100p+50(1-p) U1(W,B2)=100p+50(1p)
    • U 1 ( N , B 2 ) = 150 p + 0 ( 1 − p ) U_1(N,B_2)=150p+0(1-p) U1(N,B2)=150p+0(1p)

因此当 U 1 ( N , B 2 ) ≥ U 1 ( W , B 2 ) U_1(N,B_2)\geq U_1(W,B_2) U1(N,B2)U1(W,B2)时达到贝叶斯均衡,即 p ≥ 0.5 p\geq 0.5 p0.5

例题2:

第一高价拍卖:

更改之前的规则:两名玩家参与竞拍,玩家只知道自己的实际价值,其他玩家的实际价值为[0,1]的任意实数,且等概率,竞拍价格为 b i = a v i , ( a > 0 ) b_i=av_i,(a>0) bi=avi,(a>0)

玩家1收益函数定义为:

v 1 − b 1   i f   b 1 > b 2 v_1-b_1\ if\ b_1>b_2 v1b1 if b1>b2

v 1 / 2 − b 1   i f   b 1 = b 2 v_1/2-b_1\ if\ b_1=b_2 v1/2b1 if b1=b2

0   o t h e r w i s e 0\ otherwise 0 otherwise

则玩家1的收益为: U 1 ( b i , b j ( v j ) , v i ) = ( v i − b i ) p [ b i &gt; b j ( v j ) ] + ( v i − b i ) / 2 p [ b i = b j ( v j ) ] + 0 p [ b i &lt; b j ( v j ) ] U_1(b_i,bj(v_j),v_i)=(v_i-b_i)p[b_i&gt;b_j(v_j)]+(v_i-b_i)/2p[b_i=b_j(v_j)]+0p[b_i&lt;b_j(v_j)] U1(bi,bj(vj),vi)=(vibi)p[bi>bj(vj)]+(vibi)/2p[bi=bj(vj)]+0p[bi<bj(vj)],其中 b i &gt; b j ⇔ b i &gt; a v j ⇔ b i / a &gt; v j b_i&gt;b_j\Leftrightarrow b_i&gt;av_j\Leftrightarrow b_i/a&gt;v_j bi>bjbi>avjbi/a>vj

​ 由于 v j v_j vjz在[0,1]为均匀分布,因此 b i 在 [ 0 , a v j ] b_i在[0,av_j] bi[0,avj]为均匀分布,因此:

p [ b i &gt; b j ] = b i / a , U i ( b i , b j , v i ) = ( v i − b i ) b i / a , 当 b i = v i / 2 p[b_i&gt;b_j]=b_i/a,U_i(b_i,b_j,v_i)=(v_i-b_i)b_i/a,当b_i=v_i/2 p[bi>bj]=bi/a,Ui(bi,bj,vi)=(vibi)bi/a,bi=vi/2时取得最大值。

​ 如果拓展到N个博弈玩家则 U 1 ( b i , b j ( v j ) , v i ) = ( v i − b i ) p [ b i &gt; m a x { b j ( v j ) } ] + ( v i − b i ) / 2 p [ b i = m a x { b j ( v j ) } ] U_1(b_i,bj(v_j),v_i)=(v_i-b_i)p[b_i&gt;max\{b_j(v_j)\}]+(v_i-b_i)/2p[b_i=max\{b_j(v_j)\}] U1(bi,bj(vj),vi)=(vibi)p[bi>max{bj(vj)}]+(vibi)/2p[bi=max{bj(vj)}]

b i &gt; m a x { b j } ⇔ v i &gt; m a x { v j } b_i&gt;max\{b_j\}\Leftrightarrow v_i&gt;max\{v_j\} bi>max{bj}vi>max{vj},且各玩家的真实价值相互独立,因此 p [ v i &gt; m a x { v j } ] = ∏ j ≠ i p [ v i &gt; v j ] = v i N − 1 = ( b i / a ) N − 1 p[v_i&gt;max\{v_j\}]=\prod_{j\neq i} p[v_i&gt;v_j]=v_i^{N-1}=(b_i/a)^{N-1} p[vi>max{vj}]=j̸=ip[vi>vj]=viN1=(bi/a)N1,收益为 ( v i − b i ) ( b i / a ) N − 1 (v_i-b_i)(b_i/a)^{N-1} (vibi)(bi/a)N1

求导得: b i n − 2 ( ( ( N − 1 ) v i − N b i ) = 0 ⇒ b i = N − 1 N v i b_i^{n-2}(((N-1)v_i-Nb_i)=0\Rightarrow b_i=\frac{N-1}{N}v_i bin2(((N1)viNbi)=0bi=NN1vi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值