博弈论——非完全信息博弈

最新推荐文章于 2023-06-23 22:44:32 发布

lengjiayi

最新推荐文章于 2023-06-23 22:44:32 发布

阅读量5.1k

点赞数 4

分类专栏：博弈论笔记文章标签：博弈论贝叶斯博弈

本文链接：https://blog.csdn.net/lengjiayi/article/details/85700438

版权

博弈论笔记专栏收录该内容

7 篇文章 6 订阅

订阅专栏

在实际情况中，博弈对手的收益大多为不可见的，即每个玩家有公共信息和私有信息。

贝叶斯博弈

基本概念

在贝叶斯博弈中为每位玩家增加一个类型空间 $\Theta_{i}$ 包含其所有的私有信息(针对不同策略的不同收益函数)
所有玩家类型空间的选择满足概率分布 $p=p(\theta_{1},...,\theta_{N})\ on\ \times_{i=1...n}\Theta_{i}$
玩家i的一种纯策略 $a_{i}=(a_{i}(\theta_i^1),a_i(\theta_i^2),...,a_i(\theta_i^{n_i}))$ ，其中 $n_i$ 为玩家i类型空间的大小（可以看成 $\Theta_i\rightarrow A_i$ 的映射）。
收益函数可以写作 $u_i(a_1,...a_N,\theta_1,...,\theta_N),\theta_i \in \Theta_i$ ，即针对每一种博弈结果，玩家的每种类型都有一个收益。
贝叶斯博弈中类型空间的选取满足贝叶斯公式，即 $p(\theta_{-i}|\theta_i)=\frac{p(\theta_i,\theta_{-i})}{p(\theta_i)}$
博弈结果需要每位玩家在每个类型上选择一种最优策略，因此最终结果表示为 $((a_1(\theta_1^1),...,a_1(\theta_1^{n_1})),...,(a_N(\theta_N^1),...,a_N(\theta_N^{n_N}))$
玩家i某一类型收益为所有其余玩家所有策略的期望： $U_i(a_i(\theta_i),a_{-i})=\sum_{\theta_{-i}}p(\theta_{-i}|\theta_i)u_i(a_{-i}(\theta_{-i}),a_i,\theta_{-i},\theta_i)$

综上，贝叶斯博弈可以表示为 $G=\{N,\{A_i\},\{\Theta_i\},\{u_i\},p\}$ 。

例题1：

Bank Runs

两名客户在银行中都有100的资产，如果遇到好的银行家则两人都可以获得150，否则失去所有资产。

客户可以取出自己的存款，但银行只有100的资金，一个取出另一个资产为0，如果两个人都选择取出则每人获得50。

其中：Player1以概率p相信银行家，Player2知道银行家的好坏。

化规为贝叶斯博弈：

策略集为： $A_1=A_2={W,N}$ （W即withdraw, N即not）

类型空间为： $\Theta_1=\{1\},\Theta_2=\{G,B\}$ ，Player1只有一种类型，Player2具有类型G(好银行家)和B(坏银行家)

概率分布只针对玩家1， $p_1(\theta_2=G)=p$

则：

如果Player1选择W，则玩家2最优策略为： $B_2(W,G)=\{W\}; \ B_2(W,B)=\{W\}$ 。则：
- $U_1(W,B_2)=50p+50(1-p)=50$
- $U_1(N,B_2)=0p+0(1-p)=0$

显然此时Player1无理由更换策略，因此达到贝叶斯纳什均衡。

如果Player1选择N，则玩家2最优策略为： $B_2(N,G)=\{N\}:B_2(N,B)=\{W\}$ 。则：
- $U_1(W,B_2)=100p+50(1-p)$
- $U_1(N,B_2)=150p+0(1-p)$

因此当 $U_1(N,B_2)\geq U_1(W,B_2)$ 时达到贝叶斯均衡，即 $p\geq 0.5$

例题2：

第一高价拍卖：

更改之前的规则：两名玩家参与竞拍，玩家只知道自己的实际价值，其他玩家的实际价值为[0,1]的任意实数，且等概率，竞拍价格为 $b_i=av_i,(a>0)$

玩家1收益函数定义为：

$v_1-b_1\ if\ b_1>b_2$

$v_1/2-b_1\ if\ b_1=b_2$

$0\ otherwise$

则玩家1的收益为： $U_1(b_i,bj(v_j),v_i)=(v_i-b_i)p[b_i>b_j(v_j)]+(v_i-b_i)/2p[b_i=b_j(v_j)]+0p[b_i<b_j(v_j)]$ ，其中 $b_i>b_j\Leftrightarrow b_i>av_j\Leftrightarrow b_i/a>v_j$

由于 $v_j$ z在[0,1]为均匀分布，因此 $b_i在[0,av_j]$ 为均匀分布，因此:

$p[b_i>b_j]=b_i/a,U_i(b_i,b_j,v_i)=(v_i-b_i)b_i/a,当b_i=v_i/2$ 时取得最大值。

如果拓展到N个博弈玩家则 $U_1(b_i,bj(v_j),v_i)=(v_i-b_i)p[b_i>max\{b_j(v_j)\}]+(v_i-b_i)/2p[b_i=max\{b_j(v_j)\}]$

且 $b_i>max\{b_j\}\Leftrightarrow v_i>max\{v_j\}$ ，且各玩家的真实价值相互独立，因此 $p[v_i>max\{v_j\}]=\prod_{j\neq i} p[v_i>v_j]=v_i^{N-1}=(b_i/a)^{N-1}$ ，收益为 $v_i-b_i)(b_i/a)^{N-1}$ 。