Nashpy包学习（一）

最新推荐文章于 2022-05-26 17:39:41 发布

木牙骓七

最新推荐文章于 2022-05-26 17:39:41 发布

阅读量2.3k

点赞数 1

分类专栏：博弈论文章标签：博弈论

原文链接：https://nashpy.readthedocs.io/en/stable/

版权

博弈论专栏收录该内容

2 篇文章 1 订阅

订阅专栏

Nashpy包应用

建立一个博弈并找出博弈的纳什均衡

官方文档传送

用例：石头剪刀布

1. 基本内容

这是一个典型的博弈过程，每个 $p l a y e r$ 都有三个选择（在博弈论中称之为 $s t r a t e g i e s$ ）:

石头
布
剪刀

胜利者的胜利条件为：

石头粉碎剪刀
布包住石头
剪刀剪切布

据此构建收益矩阵 $A_{ij}$
$A=\begin{pmatrix} 0 & -1 & 1\\ 1 & 0 & -1\\-1 & 1 & 0\end{pmatrix}$
矩阵A为控制行的玩家当他采取第 $i$ 行并且他们的对手（列玩家）玩第 $j$ 列时的效用。

2. 构建博弈

可以根据行玩家的效用矩阵来构建博弈：

import nashpy as nash
import numpy as np
A = np.array([[0,-1,1],[1,0,-1],[-1,1,0]])
rps = nash.Game(A)
rps

输出：

可知行玩家和列玩家之间为零和博弈，因此列玩家的效用矩阵应该与列玩家正好相反，此时也可以使用行玩家和列玩家的效用矩阵来一起构建博弈。

import nashpy as nash
import numpy as np
A = np.array([[0,-1,1],[1,0,-1],[-1,1,0]])
B = -A
rps = nash.Game(A,B)
rps

在这里插入图片描述

3. 计算一对策略的效用

将两个 $p l a y e r$ 定义为行玩家( $r$ )和列玩家( $c$ )

数学方法表示策略为一个固定长度的向量，长度为行为个数，例如:
$\boldsymbol\sigma_r=(0,0,1)$ 表示 $r$ 的策略为一直出剪刀；
$\boldsymbol\sigma_c=(0,1,0)$ 表示 $c$ 一直出布。

当双方策略固定后，使用线性代数表达式获得玩家的效用：
$\begin{cases}U_r(\boldsymbol\sigma_r)=\boldsymbol\sigma_rA\boldsymbol\sigma_c^T\\U_c(\boldsymbol\sigma_c)=\boldsymbol\sigma_rB\boldsymbol\sigma_c^T\end{cases}$
使用Nashpy计算收益：
sigma_r = [0,0,1]
sigma_c = [0,1,0]
rps[sigma_r,sigma_c]

上述假定策略固定，我们还可以使策略随机，此时效用对应的是长期平均值，这就是我们对策略和效用计算的表示变得特别有用的地方:

$\boldsymbol\sigma_r=(1/2,1/2,0)$ 表示 $r$ 以1/2概率出石头，1/2概率出布；
$\boldsymbol\sigma_c=(0,1/2,1/2)$ 表示 $c$ 以1/2概率出布，1/2概率出剪刀。
sigma_r = [1/2,1/2,1]
sigma_c = [0,1/2,1/2]
rps[sigma_r,sigma_c]
此时列玩家可能会在下一阶段偏离。

4. 计算纳什均衡

纳什均衡是一组策略，在这个策略下，双方玩家都不会有意图去改变策略，我们可以使用Nashpy来找纳什均衡：

eqs = rps.support_enumeration()
list(eqs)

在这里插入图片描述

5. Learning in game

在非合作博弈中，纳什均衡并不是容易观测到的。纳什均衡对应于没有玩家有改变策略的动机，但这并不一定意味着玩家可以自然地达到平衡状态。

import numpy as np
iterations = 100
np.random.seed(0)
play_counts = rps.fictitious_play(iterations=iterations)
for row_play_count,colum_play_count in play_counts:
    print(row_play_count,colum_play_count)