两人对称博弈

luyi12138

已于 2022-08-09 16:27:07 修改

阅读量2.1k

点赞数 21

分类专栏：演化博弈论文章标签：机器学习线性代数

于 2022-08-08 23:20:44 首次发布

本文链接：https://blog.csdn.net/ehsdhgd/article/details/126235260

版权

演化博弈论专栏收录该内容

11 篇文章 2 订阅

订阅专栏

文章目录

定义与符号
对称纳什均衡
- 1.定义
- 2.命题
2X2两人对称博弈
- 1. 概念
- 2. 风险占优

定义与符号

1. 两人对称博弈定义

若博弈 $G=(I,S,\pi)$ 为两人对称博弈，则满足
博弈方数量 $I = 2$
双方可采取的策略集合 $S_1=S_2$
收益矩阵 $A^T=B$

2. 共同混合策略集

共同混合策略集 $\Delta=\{x\in R_+^k: \sum_{i\in k}{x_i}=1 \}$
x为某一个K维欧式空间中的概率向量
假定x为行博弈方的策略，y为列博弈方的策略
针对某个混合策略 $y\in\Delta$
行博弈方采取纯策略i的收益可表示为
$u(e^i,y)=e^i*A*y$ ,其中e^i为行博弈方采取的纯策略，A为收益矩阵，y为列博弈方采取某个混合策略的概率向量 $y_1,y_2,...,y_k)^T$

我理解下纯策略的期望收益是：自己采取纯策略1，对方是一个混合策略 $y_1,y_2,...,y_k)$ ,相当于采取每种策略的概率（所以称它为概率向量嘛），收益矩阵中的每个值代表自己与对方采取相应策略的收益，概率与收益相乘即可得期望收益。

3. 最佳反应集合

$\beta^*(y)=\{ x\in \Delta :u(x,y)\geqslant u(x',y),\forall x\in\Delta\}$
最佳反应集合即对y做出最优反应的x的集合，通过收益最大来判断是否是最优反应（个人理解）

4. 双重对称的两人对称博弈

定义：如果两人对称博弈的收益矩阵 $A^T=A$ ，那么两人对称博弈是双重对称的
$A^T=A$ ,且两人对称博弈由 $A^T=B$ ，因此当且仅当A=B时为双重对称的。

5. 协调博弈与伙伴博弈

协调博弈是指当行博弈方采取策略1的可能性足够高，列博弈方也会采取策略1；但是未必是一个两人对称博弈。
伙伴博弈是指两个人总是同样好或同样不好的两人对称博弈,所以伙伴博弈是一个双重对称的两人对称博弈。

对称纳什均衡

1.定义

在对称博弈中，两博弈方运用相同策略构成的纳什均衡被称为对称的。
纳什均衡策略 $x\in \Delta$ 的子集可以表示为
$\Delta ^{NE}= \{x\in \Delta:(x,x)\in \Theta^{NE}\}$
几何上表现为 $\Theta$ (策略空间)的对角线与 $\Theta^{NE}$ 的交集
等价的, $\Delta ^{NE} \in \Delta$ 是最优反应 $\beta^*: \Delta \rightarrow \Delta$ 的不动点集
因为 $\Theta$ 的对角线只能保证两博弈方策略相同，不能保证纳什均衡；而 $\Theta^{NE}$ 只能保证纳什均衡而不能保证策略一致；故取两者交集

2.命题

对任何有限的两人对称博弈而言， $\Delta ^{NE}\ne\varnothing$ (任何两人对称博弈均存在对称纳什均衡)
在这里插入图片描述
证明图片来源：《演化博弈论》，乔根·W·布威尔

2X2两人对称博弈

1. 概念

A是行博弈方的收益矩阵，则对A的列进行线性变换不影响占优关系，纳什均衡策略选择
(画线法选择纳什均衡中有一过程是比较数值大小选出数值较大的那一个，从控制变量方面来讲即为要保持另一个博弈方策略不动，故对行博弈方来讲进行线性变换不影响纳什均衡策略选择；若为列博弈方则需对行线性变换)
收益标准化即为特殊的线性变换

$S^D$表示纳什均衡时采取策略的集合；
$\Theta^{NE}$表示纳什均衡集；
$\Delta^{NE}$表示纳什均衡策略x的子集；表现为$\Theta^{NE}$中双方采取相同策略的集合

根据 $a_1,a_2$ 大于0还是小于0可分成四种
第一类： $a_1<0,a_2>0,S^D=\{2\}, \Theta^{NE}=\{(e^2,e^2)\},\Delta^{NE}$
第二类： $a_1>0,a_2>0,S^D=\{1,2\}, \Theta^{NE}=\{(e^1,e^1),(e^2,e^2),(\hat x,\hat x)\},\Delta^{NE}=\{e^1,e^2,\hat x\}$
第三类： $a_1<0,a_2<0,S^D=\{1,2\}, \Theta^{NE}=\{(e^1,e^2),(e^2,e^1),(\hat x,\hat x)\},\Delta^{NE}=\{\hat x\}$
第四类： $a_1>0,a_2<0,S^D=\{1\}, \Theta^{NE}=\{(e^1,e^1)\},\Delta^{NE}=\{e^1\}$

2. 风险占优

在上述第二类博弈中，理性的博弈方选择哪种纳什均衡更合适？在风险与效率之间存在着某种取舍关系。
有如下定义：
在2X2对称博弈中，收益标准化后，若 $a_1>a_2$ ,那么 $(e_1,e_1)\in \Theta^{NE}$ 风险占优 $(e_2,e_2)\in \Theta^{NE}$
换言之，收益标准化后，一个严格纳什均衡严格帕累托占优另一个严格纳什均衡，那么前者风险占优后者。
帕累托占优通俗地理解是，没有任何人变坏地情况下能够让自己变得更好。选择策略1双方的收益要高于选择策略2的收益，则称策略1帕累托优于策略2。