双人零和博弈（two player zero-sum game）的性质

最新推荐文章于 2024-03-31 23:04:04 发布

ldc1513

最新推荐文章于 2024-03-31 23:04:04 发布

阅读量2.8k

点赞数

分类专栏：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ldc1513/article/details/125948222

版权

学习笔记专栏收录该内容

43 篇文章

订阅专栏

双人零和博弈中，行玩家目标是max_x(xRy)，列玩家目标是min_y(xRy)。纳什均衡具有可交换性，所有NE的payoff相同。通过上下界统一保证，可以使用线性规划在多项式时间内求解NE。算法确保行玩家面对任意策略时收益大于等于NE的值V，且列玩家策略满足V的下界。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

reference: https://www.tau.ac.il/~mansour/course_games/scribe/lecture4.pdf

双人零和博弈是指两个参与者的支付在任意情况下和为0的博弈。假设行玩家的策略为x，列玩家的策略为y，那么行玩家的目标应为max_x（xRy），而列玩家的目标为max_y (x-Ry)，即min_y(xRy)，因此，零和博弈的本质是优化的minmax问题

双人零和博弈的纳什均衡有下列若干性质：

可交换性：假设博弈 $\lang G,\pi\rang$ 有NE： $(\gamma_1,\gamma_2)$ 和 $(\sigma_1,\sigma_2)$ ，那么 $(\gamma_1,\sigma_2),(\sigma_1,\gamma_2)$ 也是NE，且 $\pi(\gamma_1,\gamma_2)=\pi(\sigma_1,\sigma_2)=\pi(\gamma_1,\sigma_2)=\pi(\sigma_1,\gamma_2)$

证明：根据NE的性质： $\pi(\gamma_1,\gamma_2)\geq\pi(\sigma_1,\gamma_2)\geq \pi(\sigma_1,\sigma_2)$ ，同理， $\pi(\gamma_1,\gamma_2)\leq\pi(\gamma_1,\sigma_2)\leq \pi(\sigma_1,\sigma_2)$ ，从而可知这些策略的payoff是一样的，从而由NE的定义， $(\gamma_1,\sigma_2),(\sigma_1,\gamma_2)$ 同样使得两人不会偏离当前策略，因此也是NE。

推论：如果定义行玩家的均衡策略集合为 $S_1=\{\sigma_1\in A_1|\exists \sigma_2\in A_2,(\sigma_1,\sigma_2)\text{is an eq. pt.}\}$ ，那么该博弈的所有NE可以表示为 $S_1\times S_2$ ，并且任意两个NE的payoff均相同。下一个定理刻画了应当如何求这个payoff
上下界统一保证：如果博弈为normal form，行玩家的支付由矩阵A表示，则显然行玩家的收益的下界为 $\max_x \min_yx^TAy=\max_x \min_j\sum x_ia_{ij}$ ，上界为 $\min_y \max_i \sum y_j a_{ij}$ . 根据Minmax Theorem，事实上可以证明这两个界的值是相等的，进而提示我们使用线性规划求解NE的方法：

证明：引理：凸集分离定理：假设 $\text{convex set }B\subset R^d,\vec{x}\notin B$ ，则存在 $\alpha\in R^d$ 和 $a$ ，使得 $\vec{\alpha}\cdot\vec{x}=a<\vec{\alpha}\cdot \vec{y},\forall \vec{y}\in B$ ，亦即，凸集B和 $\vec{x}$ 被超平面 $\vec{\alpha}\cdot \vec{t}=a$ 分离

引理：A为m*n维矩阵，m个n维行向量记为 $\vec{a_i}$ ，则下列二者之一成立：
1. $\vec{0}$ 位于 $\vec{a_i}\cup \vec{e_i}$ 共n+m个n维向量构成的凸包中 2. 存在一个向量 $\vec{x}\in \Delta^n$ ，使得 $\vec{a_i}\cdot \vec{x}>0$
Pf：对0和这些向量的凸包使用凸集分离定理即可

回原：考虑上面引理的两种情况：

情况1：则存在和为1的非负实数 $s_1,...,s_{n+m}$ ，使得 $\sum_{j=1}^n a_{ij}s_j+s_{n+i}=0,\forall 1\leq i\leq m$ . 显然， $s_1,...,s_n$ 不全为0，从而定义n维向量 $\bar{y}$ ： $\bar{y}_i=s_i/\sum_{i=1}^ns_i$ ，则 $\vec{y}\in \Delta^n$ ，且 $\sum_j a_{ij}\bar{y}_j\leq 0,\forall i$ ，从而，结果的上界 $\min_y \max_i \sum y_j a_{ij}\leq \max_i \sum \bar{y}_ja_{ij}\leq 0$ ，从而有算法结果的上下界结果均小于等于0

情况2：同理，可以存在 $\vec{\bar{x}}$ ，使得结果的下界大于等于0，从而上下界结果均大于等于0

从而，我们证明了对于0，算法的上下界在其同侧。同理，对任意的常数c，定义矩阵B=A-c，使用上面的结论，则显然算法的上下界对任意常数c也在同侧，从而上下界的值必须相等，命题得证！

推论：由上，显然这个博弈的任意NE的值必须等于这个上下界的值，称为value of the game，简记为V
算法：行玩家的任意策略x若满足 $\forall j, \sum_i x_i a_{ij}\geq V$ ，则其对行玩家是最优的，因为根据V的定义，这保证了行玩家在面对列玩家的任意策略组合时都能获得大于等于V的收益；而且由于V的上界性，不可能存在更好的界了；同理，列玩家的任何策略y若满足 $\forall i, \sum_i y_j a_{ij}\leq V$ ，则也是最优的。这样的策略(x,y)显然满足 $x^T Ay=V$ 并且构成一个NE，并且推导出一个计算行玩家策略的算法：
$\begin{array}{lcl} \forall 1 \leq j \leq n, & \sum_{i=1}^{m} x_{i} a_{i j}-V & \geq 0 \\ \forall 1 \leq i \leq m & x_{i} & \geq 0 \\ & \sum_{i=1}^{m} x_{i} & =1 \\ & \text { Maximize target function } & V \end{array}$
由上，其对偶算法计算了列玩家的策略：
$\begin{array}{lcl} \forall 1 \leq j \leq m, & \sum_{i=1}^{n} y_{i} a_{j i}-V & \leq 0 \\ \forall 1 \leq i \leq n & y_{i} & \geq 0 \\ & \sum_{i=1}^n y_{i} & =1 \\ & \text { Minimize target function } & V \end{array}$
显然，由于线性规划是多项式时间的算法，因此计算零和博弈的NE也是多项式时间的。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。