两人对称博弈


定义与符号

1. 两人对称博弈定义

若博弈 G = ( I , S , π ) G=(I,S,\pi) G=(I,S,π)为两人对称博弈,则满足
博弈方数量 I = 2 I=2 I=2
双方可采取的策略集合 S 1 = S 2 S_1=S_2 S1=S2
收益矩阵 A T = B A^T=B AT=B

2. 共同混合策略集

共同混合策略集 Δ = { x ∈ R + k : ∑ i ∈ k x i = 1 } \Delta=\{x\in R_+^k: \sum_{i\in k}{x_i}=1 \} Δ={xR+k:ikxi=1}
x为某一个K维欧式空间中的概率向量
假定x为行博弈方的策略,y为列博弈方的策略
针对某个混合策略 y ∈ Δ y\in\Delta yΔ
行博弈方采取纯策略i的收益可表示为
u ( e i , y ) = e i ∗ A ∗ y u(e^i,y)=e^i*A*y u(ei,y)=eiAy,其中e^i为行博弈方采取的纯策略,A为收益矩阵,y为列博弈方采取某个混合策略的概率向量 ( y 1 , y 2 , . . . , y k ) T (y_1,y_2,...,y_k)^T (y1,y2,...,yk)T

我理解下纯策略的期望收益是:自己采取纯策略1,对方是一个混合策略 ( y 1 , y 2 , . . . , y k ) (y_1,y_2,...,y_k) (y1,y2,...,yk),相当于采取每种策略的概率(所以称它为概率向量嘛),收益矩阵中的每个值代表自己与对方采取相应策略的收益,概率与收益相乘即可得期望收益。

3. 最佳反应集合

β ∗ ( y ) = { x ∈ Δ : u ( x , y ) ⩾ u ( x ′ , y ) , ∀ x ∈ Δ } \beta^*(y)=\{ x\in \Delta :u(x,y)\geqslant u(x',y),\forall x\in\Delta\} β(y)={xΔ:u(x,y)u(x,y),xΔ}
最佳反应集合即对y做出最优反应的x的集合,通过收益最大来判断是否是最优反应(个人理解)

4. 双重对称的两人对称博弈

定义:如果两人对称博弈的收益矩阵 A T = A A^T=A AT=A,那么两人对称博弈是双重对称的
A T = A A^T=A AT=A,且两人对称博弈由 A T = B A^T=B AT=B,因此当且仅当A=B时为双重对称的。

5. 协调博弈与伙伴博弈

协调博弈是指当行博弈方采取策略1的可能性足够高,列博弈方也会采取策略1;但是未必是一个两人对称博弈。
伙伴博弈是指两个人总是同样好或同样不好的两人对称博弈,所以伙伴博弈是一个双重对称的两人对称博弈。

对称纳什均衡

1.定义

在对称博弈中,两博弈方运用相同策略构成的纳什均衡被称为对称的。
纳什均衡策略 x ∈ Δ x\in \Delta xΔ的子集可以表示为
Δ N E = { x ∈ Δ : ( x , x ) ∈ Θ N E } \Delta ^{NE}= \{x\in \Delta:(x,x)\in \Theta^{NE}\} ΔNE={xΔ:(x,x)ΘNE}
几何上表现为 Θ \Theta Θ(策略空间)的对角线与 Θ N E \Theta^{NE} ΘNE的交集
等价的, Δ N E ∈ Δ \Delta ^{NE} \in \Delta ΔNEΔ是最优反应 β ∗ : Δ → Δ \beta^*: \Delta \rightarrow \Delta β:ΔΔ的不动点集
因为 Θ \Theta Θ的对角线只能保证两博弈方策略相同,不能保证纳什均衡;而 Θ N E \Theta^{NE} ΘNE只能保证纳什均衡而不能保证策略一致;故取两者交集

2.命题

对任何有限的两人对称博弈而言, Δ N E ≠ ∅ \Delta ^{NE}\ne\varnothing ΔNE=(任何两人对称博弈均存在对称纳什均衡)
在这里插入图片描述
证明图片来源:《演化博弈论》,乔根·W·布威尔

2X2两人对称博弈

1. 概念

A是行博弈方的收益矩阵,则对A的列进行线性变换不影响占优关系,纳什均衡策略选择
(画线法选择纳什均衡中有一过程是比较数值大小选出数值较大的那一个,从控制变量方面来讲即为要保持另一个博弈方策略不动,故对行博弈方来讲进行线性变换不影响纳什均衡策略选择;若为列博弈方则需对行线性变换)
收益标准化即为特殊的线性变换

$S^D$表示纳什均衡时采取策略的集合;
$\Theta^{NE}$表示纳什均衡集;
$\Delta^{NE}$表示纳什均衡策略x的子集;表现为$\Theta^{NE}$中双方采取相同策略的集合

根据 a 1 , a 2 a_1,a_2 a1,a2大于0还是小于0可分成四种
第一类: a 1 < 0 , a 2 > 0 , S D = { 2 } , Θ N E = { ( e 2 , e 2 ) } , Δ N E a_1<0,a_2>0,S^D=\{2\}, \Theta^{NE}=\{(e^2,e^2)\},\Delta^{NE} a1<0,a2>0,SD={2},ΘNE={(e2,e2)},ΔNE
第二类: a 1 > 0 , a 2 > 0 , S D = { 1 , 2 } , Θ N E = { ( e 1 , e 1 ) , ( e 2 , e 2 ) , ( x ^ , x ^ ) } , Δ N E = { e 1 , e 2 , x ^ } a_1>0,a_2>0,S^D=\{1,2\}, \Theta^{NE}=\{(e^1,e^1),(e^2,e^2),(\hat x,\hat x)\},\Delta^{NE}=\{e^1,e^2,\hat x\} a1>0,a2>0,SD={1,2},ΘNE={(e1,e1),(e2,e2),(x^,x^)},ΔNE={e1,e2,x^}
第三类: a 1 < 0 , a 2 < 0 , S D = { 1 , 2 } , Θ N E = { ( e 1 , e 2 ) , ( e 2 , e 1 ) , ( x ^ , x ^ ) } , Δ N E = { x ^ } a_1<0,a_2<0,S^D=\{1,2\}, \Theta^{NE}=\{(e^1,e^2),(e^2,e^1),(\hat x,\hat x)\},\Delta^{NE}=\{\hat x\} a1<0,a2<0,SD={1,2},ΘNE={(e1,e2),(e2,e1),(x^,x^)},ΔNE={x^}
第四类: a 1 > 0 , a 2 < 0 , S D = { 1 } , Θ N E = { ( e 1 , e 1 ) } , Δ N E = { e 1 } a_1>0,a_2<0,S^D=\{1\}, \Theta^{NE}=\{(e^1,e^1)\},\Delta^{NE}=\{e^1\} a1>0,a2<0,SD={1},ΘNE={(e1,e1)},ΔNE={e1}

2. 风险占优

在上述第二类博弈中,理性的博弈方选择哪种纳什均衡更合适?在风险与效率之间存在着某种取舍关系。
有如下定义:
在2X2对称博弈中,收益标准化后,若 a 1 > a 2 a_1>a_2 a1>a2,那么 ( e 1 , e 1 ) ∈ Θ N E (e_1,e_1)\in \Theta^{NE} (e1,e1)ΘNE风险占优 ( e 2 , e 2 ) ∈ Θ N E (e_2,e_2)\in \Theta^{NE} (e2,e2)ΘNE
换言之,收益标准化后,一个严格纳什均衡严格帕累托占优另一个严格纳什均衡,那么前者风险占优后者。
帕累托占优通俗地理解是,没有任何人变坏地情况下能够让自己变得更好。选择策略1双方的收益要高于选择策略2的收益,则称策略1帕累托优于策略2。

  • 21
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值