博弈论——零和博弈

版权声明:本文为原创文章,未经博主允许不得用于商业用途。

基础知识

  • 零和博弈:在两名玩家的博弈中,满足$\forall a_1\in A_1,\forall a_2\in A_2,u_1(a_1,a_2)+u_2(a_1,a_2)=0 $即为零和博弈,即两名玩家的总收益为0。
  • 对于零和博弈可以只使用一个玩家的收益函数简化表示,即 G = { { 1 , 2 } , { A 1 , A 2 } , { u } } G=\{\{1,2\},\{A_1,A_2\},\{u\}\} G={{1,2},{A1,A2},{u}}

纯策略博弈

  • 在零和博弈中,两名玩家都不希望结果太坏,因此玩家i决策依据如下原则: max ⁡ a i ∈ A i min ⁡ a j ∈ A j u i ( a i , a j ) \max\limits_{a_i\in A_i}\min\limits_{a_j\in A_j}u_i(a_i,a_j) aiAimaxajAjminui(ai,aj),即都在最坏策略下做出最好选择。
    • 由于总体收益为0,即 max ⁡ a 2 u 2 = max ⁡ a 2 − u 1 = − min ⁡ a 2 u 1 \max\limits_{a_2}u_2=\max\limits_{a_2}-u_1=-\min\limits_{a_2}u_1 a2maxu2=a2maxu1=a2minu1因此上述公式可以化为:
      • Player1: a 1 = a r g max ⁡ a 1 ∈ A 1 min ⁡ a 2 ∈ A 2 u ( a 1 , a 2 ) a_1=arg\max\limits_{a_1\in A_1}\min\limits_{a_2\in A_2}u(a_1,a_2) a1=arga1A1maxa2A2minu(a1,a2)
      • Player2: a 2 = a r g min ⁡ a 2 ∈ A 2 max ⁡ a 1 ∈ A 1 u ( a 1 , a 2 ) a_2=arg\min\limits_{a_2\in A_2}\max\limits_{a_1\in A_1}u(a_1,a_2) a2=arga2A2mina1A1maxu(a1,a2)
  • 最小化最大化定理: M i n M a x ≥ M a x M i n MinMax\geq MaxMin MinMaxMaxMin
    • 可以用反证法,如果存在 p = M i n M a x &lt; q = M a x M i n p=MinMax&lt;q=MaxMin p=MinMax<q=MaxMin,设 p p p为第 i 1 i_1 i1行第 j 1 j_1 j1列, q q q为第 i 2 i_2 i2行第 j 2 j_2 j2列,则p为第 i 1 i_1 i1行最大值,q为第 j 2 j_2 j2列最小值,因此 u ( i 1 , j 2 ) ≥ q , u ( i 1 , j 2 ) ≤ p ⇒ p ≥ q u(i_1,j_2)\geq q,u(i_1,j_2)\leq p\Rightarrow p\geq q u(i1,j2)q,u(i1,j2)ppq,矛盾。
    • 因此纳什均衡存在的充要条件即 M i n M a x = M a x M i n MinMax=MaxMin MinMax=MaxMin
例题:

  • 对于Player1, a r g M i n = { ( U , L ) , ( U , M ) , ( M , M ) , ( D , M ) . ( D , R ) } argMin=\{(U,L),(U,M),(M,M),(D,M).(D,R)\} argMin={(U,L),(U,M),(M,M),(D,M).(D,R)},其中收益最大值点为(M,M),因此选择策略M。
  • 对于Player2, a r g M a x = { ( L , D ) , ( M , M ) , ( R , U ) } argMax=\{(L,D),(M,M),(R,U)\} argMax={(L,D),(M,M),(R,U)},当Player1收益最低点为(M,M),因此选择策略M。

综上纳什均衡点为(M,M)

混合策略零和博弈

在混合策略中,收益函数可以表示为 U ( p , q ) = p M q T . p = ( p 1 , . . . , p m ) ∈ Δ 1 , q = ( q 1 , . . . , q n ) ∈ Δ 2 U(p,q)=pMq^T.p=(p_1,...,p_m)\in \Delta_1,q=(q_1,...,q_n)\in \Delta_2 U(p,q)=pMqT.p=(p1,...,pm)Δ1,q=(q1,...,qn)Δ2,M为纯策略收益矩阵。

因此同样可以表示两玩家的策略:

  • Player1: p = a r g max ⁡ p ∈ Δ 1 min ⁡ q ∈ Δ 2 u ( p , q ) p=arg\max\limits_{p\in \Delta_1}\min\limits_{q\in \Delta_2}u(p,q) p=argpΔ1maxqΔ2minu(p,q)
  • Player2: q = a r g min ⁡ q ∈ Δ 2 max ⁡ p ∈ Δ 1 u ( p , q ) q=arg\min\limits_{q\in \Delta_2}\max\limits_{p\in \Delta_1}u(p,q) q=argqΔ2minpΔ1maxu(p,q)

极大极小定理同样适用。

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值