版权声明:本文为原创文章,未经博主允许不得用于商业用途。
基础知识
- 零和博弈:在两名玩家的博弈中,满足$\forall a_1\in A_1,\forall a_2\in A_2,u_1(a_1,a_2)+u_2(a_1,a_2)=0 $即为零和博弈,即两名玩家的总收益为0。
- 对于零和博弈可以只使用一个玩家的收益函数简化表示,即 G = { { 1 , 2 } , { A 1 , A 2 } , { u } } G=\{\{1,2\},\{A_1,A_2\},\{u\}\} G={{1,2},{A1,A2},{u}}
纯策略博弈
- 在零和博弈中,两名玩家都不希望结果太坏,因此玩家i决策依据如下原则:
max
a
i
∈
A
i
min
a
j
∈
A
j
u
i
(
a
i
,
a
j
)
\max\limits_{a_i\in A_i}\min\limits_{a_j\in A_j}u_i(a_i,a_j)
ai∈Aimaxaj∈Ajminui(ai,aj),即都在最坏策略下做出最好选择。
- 由于总体收益为0,即
max
a
2
u
2
=
max
a
2
−
u
1
=
−
min
a
2
u
1
\max\limits_{a_2}u_2=\max\limits_{a_2}-u_1=-\min\limits_{a_2}u_1
a2maxu2=a2max−u1=−a2minu1因此上述公式可以化为:
- Player1: a 1 = a r g max a 1 ∈ A 1 min a 2 ∈ A 2 u ( a 1 , a 2 ) a_1=arg\max\limits_{a_1\in A_1}\min\limits_{a_2\in A_2}u(a_1,a_2) a1=arga1∈A1maxa2∈A2minu(a1,a2)
- Player2: a 2 = a r g min a 2 ∈ A 2 max a 1 ∈ A 1 u ( a 1 , a 2 ) a_2=arg\min\limits_{a_2\in A_2}\max\limits_{a_1\in A_1}u(a_1,a_2) a2=arga2∈A2mina1∈A1maxu(a1,a2)
- 由于总体收益为0,即
max
a
2
u
2
=
max
a
2
−
u
1
=
−
min
a
2
u
1
\max\limits_{a_2}u_2=\max\limits_{a_2}-u_1=-\min\limits_{a_2}u_1
a2maxu2=a2max−u1=−a2minu1因此上述公式可以化为:
- 最小化最大化定理:
M
i
n
M
a
x
≥
M
a
x
M
i
n
MinMax\geq MaxMin
MinMax≥MaxMin
- 可以用反证法,如果存在 p = M i n M a x < q = M a x M i n p=MinMax<q=MaxMin p=MinMax<q=MaxMin,设 p p p为第 i 1 i_1 i1行第 j 1 j_1 j1列, q q q为第 i 2 i_2 i2行第 j 2 j_2 j2列,则p为第 i 1 i_1 i1行最大值,q为第 j 2 j_2 j2列最小值,因此 u ( i 1 , j 2 ) ≥ q , u ( i 1 , j 2 ) ≤ p ⇒ p ≥ q u(i_1,j_2)\geq q,u(i_1,j_2)\leq p\Rightarrow p\geq q u(i1,j2)≥q,u(i1,j2)≤p⇒p≥q,矛盾。
- 因此纳什均衡存在的充要条件即 M i n M a x = M a x M i n MinMax=MaxMin MinMax=MaxMin
例题:
- 对于Player1, a r g M i n = { ( U , L ) , ( U , M ) , ( M , M ) , ( D , M ) . ( D , R ) } argMin=\{(U,L),(U,M),(M,M),(D,M).(D,R)\} argMin={(U,L),(U,M),(M,M),(D,M).(D,R)},其中收益最大值点为(M,M),因此选择策略M。
- 对于Player2, a r g M a x = { ( L , D ) , ( M , M ) , ( R , U ) } argMax=\{(L,D),(M,M),(R,U)\} argMax={(L,D),(M,M),(R,U)},当Player1收益最低点为(M,M),因此选择策略M。
综上纳什均衡点为(M,M)
混合策略零和博弈
在混合策略中,收益函数可以表示为 U ( p , q ) = p M q T . p = ( p 1 , . . . , p m ) ∈ Δ 1 , q = ( q 1 , . . . , q n ) ∈ Δ 2 U(p,q)=pMq^T.p=(p_1,...,p_m)\in \Delta_1,q=(q_1,...,q_n)\in \Delta_2 U(p,q)=pMqT.p=(p1,...,pm)∈Δ1,q=(q1,...,qn)∈Δ2,M为纯策略收益矩阵。
因此同样可以表示两玩家的策略:
- Player1: p = a r g max p ∈ Δ 1 min q ∈ Δ 2 u ( p , q ) p=arg\max\limits_{p\in \Delta_1}\min\limits_{q\in \Delta_2}u(p,q) p=argp∈Δ1maxq∈Δ2minu(p,q)
- Player2: q = a r g min q ∈ Δ 2 max p ∈ Δ 1 u ( p , q ) q=arg\min\limits_{q\in \Delta_2}\max\limits_{p\in \Delta_1}u(p,q) q=argq∈Δ2minp∈Δ1maxu(p,q)
极大极小定理同样适用。