版权声明:本文为原创文章,未经博主允许不得用于商业用途。
在实际情况中,博弈对手的收益大多为不可见的,即每个玩家有公共信息和私有信息。
贝叶斯博弈
基本概念
-
在贝叶斯博弈中为每位玩家增加一个类型空间 Θ i \Theta_{i} Θi包含其所有的私有信息(针对不同策略的不同收益函数)
-
所有玩家类型空间的选择满足概率分布 p = p ( θ 1 , . . . , θ N ) o n × i = 1... n Θ i p=p(\theta_{1},...,\theta_{N})\ on\ \times_{i=1...n}\Theta_{i} p=p(θ1,...,θN) on ×i=1...nΘi
-
玩家i的一种纯策略 a i = ( a i ( θ i 1 ) , a i ( θ i 2 ) , . . . , a i ( θ i n i ) ) a_{i}=(a_{i}(\theta_i^1),a_i(\theta_i^2),...,a_i(\theta_i^{n_i})) ai=(ai(θi1),ai(θi2),...,ai(θini)),其中 n i n_i ni为玩家i类型空间的大小(可以看成 Θ i → A i \Theta_i\rightarrow A_i Θi→Ai的映射)。
-
收益函数可以写作 u i ( a 1 , . . . a N , θ 1 , . . . , θ N ) , θ i ∈ Θ i u_i(a_1,...a_N,\theta_1,...,\theta_N),\theta_i \in \Theta_i ui(a1,...aN,θ1,...,θN),θi∈Θi,即针对每一种博弈结果,玩家的每种类型都有一个收益。
-
贝叶斯博弈中类型空间的选取满足贝叶斯公式,即 p ( θ − i ∣ θ i ) = p ( θ i , θ − i ) p ( θ i ) p(\theta_{-i}|\theta_i)=\frac{p(\theta_i,\theta_{-i})}{p(\theta_i)} p(θ−i∣θi)=p(θi)p(θi,θ−i)
-
博弈结果需要每位玩家在每个类型上选择一种最优策略,因此最终结果表示为 ( ( a 1 ( θ 1 1 ) , . . . , a 1 ( θ 1 n 1 ) ) , . . . , ( a N ( θ N 1 ) , . . . , a N ( θ N n N ) ) ((a_1(\theta_1^1),...,a_1(\theta_1^{n_1})),...,(a_N(\theta_N^1),...,a_N(\theta_N^{n_N})) ((a1(θ11),...,a1(θ1n1)),...,(aN(θN1),...,aN(θNnN))
-
玩家i某一类型收益为所有其余玩家所有策略的期望: U i ( a i ( θ i ) , a − i ) = ∑ θ − i p ( θ − i ∣ θ i ) u i ( a − i ( θ − i ) , a i , θ − i , θ i ) U_i(a_i(\theta_i),a_{-i})=\sum_{\theta_{-i}}p(\theta_{-i}|\theta_i)u_i(a_{-i}(\theta_{-i}),a_i,\theta_{-i},\theta_i) Ui(ai(θi),a−i)=∑θ−ip(θ−i∣θi)ui(a−i(θ−i),ai,θ−i,θi)
综上,贝叶斯博弈可以表示为 G = { N , { A i } , { Θ i } , { u i } , p } G=\{N,\{A_i\},\{\Theta_i\},\{u_i\},p\} G={N,{Ai},{Θi},{ui},p}。
例题1:
Bank Runs
两名客户在银行中都有100的资产,如果遇到好的银行家则两人都可以获得150,否则失去所有资产。
客户可以取出自己的存款,但银行只有100的资金,一个取出另一个资产为0,如果两个人都选择取出则每人获得50。
其中:Player1以概率p相信银行家,Player2知道银行家的好坏。
化规为贝叶斯博弈:
策略集为: A 1 = A 2 = W , N A_1=A_2={W,N} A1=A2=W,N(W即withdraw, N即not)
类型空间为: Θ 1 = { 1 } , Θ 2 = { G , B } \Theta_1=\{1\},\Theta_2=\{G,B\} Θ1={1},Θ2={G,B},Player1只有一种类型,Player2具有类型G(好银行家)和B(坏银行家)
概率分布只针对玩家1, p 1 ( θ 2 = G ) = p p_1(\theta_2=G)=p p1(θ2=G)=p
则:
- 如果Player1选择W,则玩家2最优策略为:
B
2
(
W
,
G
)
=
{
W
}
;
B
2
(
W
,
B
)
=
{
W
}
B_2(W,G)=\{W\}; \ B_2(W,B)=\{W\}
B2(W,G)={W}; B2(W,B)={W}。则:
- U 1 ( W , B 2 ) = 50 p + 50 ( 1 − p ) = 50 U_1(W,B_2)=50p+50(1-p)=50 U1(W,B2)=50p+50(1−p)=50
- U 1 ( N , B 2 ) = 0 p + 0 ( 1 − p ) = 0 U_1(N,B_2)=0p+0(1-p)=0 U1(N,B2)=0p+0(1−p)=0
显然此时Player1无理由更换策略,因此达到贝叶斯纳什均衡。
- 如果Player1选择N,则玩家2最优策略为:
B
2
(
N
,
G
)
=
{
N
}
:
B
2
(
N
,
B
)
=
{
W
}
B_2(N,G)=\{N\}:B_2(N,B)=\{W\}
B2(N,G)={N}:B2(N,B)={W}。则:
- U 1 ( W , B 2 ) = 100 p + 50 ( 1 − p ) U_1(W,B_2)=100p+50(1-p) U1(W,B2)=100p+50(1−p)
- U 1 ( N , B 2 ) = 150 p + 0 ( 1 − p ) U_1(N,B_2)=150p+0(1-p) U1(N,B2)=150p+0(1−p)
因此当 U 1 ( N , B 2 ) ≥ U 1 ( W , B 2 ) U_1(N,B_2)\geq U_1(W,B_2) U1(N,B2)≥U1(W,B2)时达到贝叶斯均衡,即 p ≥ 0.5 p\geq 0.5 p≥0.5
例题2:
第一高价拍卖:
更改之前的规则:两名玩家参与竞拍,玩家只知道自己的实际价值,其他玩家的实际价值为[0,1]的任意实数,且等概率,竞拍价格为 b i = a v i , ( a > 0 ) b_i=av_i,(a>0) bi=avi,(a>0)
玩家1收益函数定义为:
v 1 − b 1 i f b 1 > b 2 v_1-b_1\ if\ b_1>b_2 v1−b1 if b1>b2
v 1 / 2 − b 1 i f b 1 = b 2 v_1/2-b_1\ if\ b_1=b_2 v1/2−b1 if b1=b2
0 o t h e r w i s e 0\ otherwise 0 otherwise
则玩家1的收益为: U 1 ( b i , b j ( v j ) , v i ) = ( v i − b i ) p [ b i > b j ( v j ) ] + ( v i − b i ) / 2 p [ b i = b j ( v j ) ] + 0 p [ b i < b j ( v j ) ] U_1(b_i,bj(v_j),v_i)=(v_i-b_i)p[b_i>b_j(v_j)]+(v_i-b_i)/2p[b_i=b_j(v_j)]+0p[b_i<b_j(v_j)] U1(bi,bj(vj),vi)=(vi−bi)p[bi>bj(vj)]+(vi−bi)/2p[bi=bj(vj)]+0p[bi<bj(vj)],其中 b i > b j ⇔ b i > a v j ⇔ b i / a > v j b_i>b_j\Leftrightarrow b_i>av_j\Leftrightarrow b_i/a>v_j bi>bj⇔bi>avj⇔bi/a>vj
由于 v j v_j vjz在[0,1]为均匀分布,因此 b i 在 [ 0 , a v j ] b_i在[0,av_j] bi在[0,avj]为均匀分布,因此:
p [ b i > b j ] = b i / a , U i ( b i , b j , v i ) = ( v i − b i ) b i / a , 当 b i = v i / 2 p[b_i>b_j]=b_i/a,U_i(b_i,b_j,v_i)=(v_i-b_i)b_i/a,当b_i=v_i/2 p[bi>bj]=bi/a,Ui(bi,bj,vi)=(vi−bi)bi/a,当bi=vi/2时取得最大值。
如果拓展到N个博弈玩家则 U 1 ( b i , b j ( v j ) , v i ) = ( v i − b i ) p [ b i > m a x { b j ( v j ) } ] + ( v i − b i ) / 2 p [ b i = m a x { b j ( v j ) } ] U_1(b_i,bj(v_j),v_i)=(v_i-b_i)p[b_i>max\{b_j(v_j)\}]+(v_i-b_i)/2p[b_i=max\{b_j(v_j)\}] U1(bi,bj(vj),vi)=(vi−bi)p[bi>max{bj(vj)}]+(vi−bi)/2p[bi=max{bj(vj)}]
且 b i > m a x { b j } ⇔ v i > m a x { v j } b_i>max\{b_j\}\Leftrightarrow v_i>max\{v_j\} bi>max{bj}⇔vi>max{vj},且各玩家的真实价值相互独立,因此 p [ v i > m a x { v j } ] = ∏ j ≠ i p [ v i > v j ] = v i N − 1 = ( b i / a ) N − 1 p[v_i>max\{v_j\}]=\prod_{j\neq i} p[v_i>v_j]=v_i^{N-1}=(b_i/a)^{N-1} p[vi>max{vj}]=∏j̸=ip[vi>vj]=viN−1=(bi/a)N−1,收益为 ( v i − b i ) ( b i / a ) N − 1 (v_i-b_i)(b_i/a)^{N-1} (vi−bi)(bi/a)N−1。
求导得: b i n − 2 ( ( ( N − 1 ) v i − N b i ) = 0 ⇒ b i = N − 1 N v i b_i^{n-2}(((N-1)v_i-Nb_i)=0\Rightarrow b_i=\frac{N-1}{N}v_i bin−2(((N−1)vi−Nbi)=0⇒bi=NN−1vi