演化博弈论基本概念

混合策略

符号

标准博弈可以写成: G = ( I , S , π ) G=(I,S,\pi) G=(I,S,π)
博弈方集合 I = ( 1 , 2 , 3... , n ) I=(1,2,3...,n) I=(1,2,3...,n),n为博弈方数目
有限纯策略集合 S i = { 1 , 2 , . . . , m i } S_i= \{1,2,...,m_i\} Si={1,2,...,mi} m i m_i mi为博弈方能够采取的策略数目
纯策略空间 S = X i S i , X i S=X_iS_i,X_i S=XiSiXi表示卡特尔积

对卡特尔积举个栗子
两个人进行剪刀石头布的游戏
I = 2 , S i = { 剪 刀 , 石 头 , 布 } , I=2,S_i=\{剪刀,石头,布\}, I=2,Si={},
S = { ( 剪 刀 , 剪 刀 ) , ( 剪 刀 , 石 头 ) , ( 剪 刀 , 布 ) , ( 石 头 , 石 头 ) , ( 石 头 , 剪 刀 ) , ( 石 头 , 布 ) , ( 布 , 布 ) , ( 布 , 剪 刀 ) , ( 布 , 石 头 ) } S=\{(剪刀,剪刀),(剪刀,石头),(剪刀,布),(石头,石头),(石头,剪刀),(石头,布),(布,布),(布,剪刀),(布,石头)\} S={()()()()()(),()()()}

对于任何策略组合S,博弈方I的收益可以记为 π i ( s ) \pi_i(s) πi(s) π i ( s ) \pi_i(s) πi(s)应该也可以写成 π i : S → R \pi_i:S\rightarrow R πi:SR
π i : S → R \pi_i:S\rightarrow R πi:SR为集值映射,意思为S中的每个策略,都可以对应成R中的每一个子集。

混合策略的空间几何

x i x_i xi支集(或承载形) C ( x i ) = { h ∈ S i : x i h > 0 } C(x_i)=\{h\in S_i:x_{ih}>0\} C(xi)={hSi:xih>0}
即为某混合策略 x i x_i xi赋予正概率的纯策略的集合
比如:策略集={剪刀,石头,布},混合策略 x i = ( 1 / 2 , 1 / 2 , 0 ) x_i=(1/2,1/2,0) xi=(1/2,1/2,0)
C ( x i ) = { 剪 刀 , 石 头 } C(x_i)=\{剪刀,石头\} C(xi)={}

单纯形 Δ i = { x i ∈ R + m i : Σ h = 1 m i x i h = 1 } \Delta_i=\{x_i \in R_+^{m_i}:\Sigma_{h=1}^{m_i}x_{ih}=1\} Δi={xiR+mi:Σh=1mixih=1}
Δ i \Delta_i Δi的顶点为 m i m_i mi维空间的单位向量(表示某个纯策略)
混合策略单纯形 Δ i \Delta_i Δi是所有顶点的凸包。
每个混合策略 x i x_i xi是纯策略 e i h e_i^h eih的凸组合。
凸集,凸组合,凸包,仿射组合:
凸包:S为欧式空间 R n R^n Rn的任意子集,包含S的最小凸集称为S的凸包。请添加图片描述
内部: i n t ( Δ i ) = { x i ∈ Δ i : x i h > 0 , ∀ h } int (\Delta_i)=\{x_i\in \Delta_i:x_{ih}>0,\forall h\} int(Δi)={xiΔi:xih>0,h}
外部: b d ( Δ i ) = { x i ∈ Δ i : x i ∉ i n t ( Δ i ) } bd(\Delta_i)=\{x_i\in \Delta_i:x_i\notin int(\Delta_i)\} bd(Δi)={xiΔi:xi/int(Δi)}
其中, x i x_i xi为某个混合策略, h ∈ S i h\in S_i hSi即为第几个策略。
混合策略空间 Θ = X i ∈ I Δ i \Theta=X_{i\in I}\Delta_i Θ=XiIΔi(单纯形是某个博弈方的策略集合,策略空间是每个博弈方策略的笛卡尔积)
i n t Θ = X i ∈ I i n t ( Δ i ) int\Theta=X_{i\in I} int(\Delta_i) intΘ=XiIint(Δi)
当且仅当C(x)=S(任意 x i h x_{ih} xih均大于0),对于 x ∈ Θ : x ∈ i n t ( Θ ) x\in \Theta:x\in int(\Theta) xΘ:xint(Θ)的支集,记为 C ( x ) = X i ∈ I C ( X i ) ⊂ S C(x)=X_{i\in I}C(X_i)\subset S C(x)=XiIC(Xi)S

  • 如果子集 X ⊂ Θ X\subset \Theta XΘ是各博弈方的笛卡尔积,那么X称为 Θ \Theta Θ的面,特别的, X = Θ X=\Theta X=Θ Θ \Theta Θ的一个面,而且是最大的一个面
  • 每一个纯策略组合,可以视为 Θ \Theta Θ的一个单点子集,是一个边界面
  • Θ \Theta Θ的边界面的并等同于集合 b d ( Θ ) bd(\Theta) bd(Θ)

策略组合的表示

博弈方i采取策略 x i ∈ Δ i x_i\in \Delta_i xiΔi,其他所有博弈方j按照策略组合 y ∈ Θ y\in\Theta yΘ 来行动,将此策略表示为: z = ( x i , y − i ) z=(x_i,y_{-i}) z=(xi,yi)

混合策略收益函数

某个纯策略s被采用的概率就是每个博弈方的混合策略赋予他纯策略的概率之积
x ( s ) = ∏ i = 1 n x i s i x(s)=\prod_{i=1}^nx_{is_i} x(s)=i=1nxisi
比如:
A = [ 1 2 4 5 ] A= \left [ \begin{matrix} 1 & 2 \\ 4 & 5 \end{matrix} \right ] A=[1425]
行博弈方策略 x i = ( 1 / 3 , 2 / 3 ) x_i=(1/3,2/3) xi=(1/3,2/3),列博弈方策略 y i = ( 1 / 2 , 1 / 2 ) y_i=(1/2,1/2) yi=(1/2,1/2)
则S={1,2}被采用的概率为 1 / 6 1/6 1/6
混合策略组合带给博弈方的期望收益值
u i ( x ) = Σ s ∈ S x ( s ) π i ( s ) u_i(x)=\Sigma_{s\in S}x(s)\pi_i(s) ui(x)=ΣsSx(s)πi(s)
若将博弈方j运用第k个纯策略时博弈方i的收益记作 u i ( e j k , x − j ) u_i(e_j^k,x_{-j}) ui(ejk,xj)
对任何的 x ⊂ Θ x\subset\Theta xΘ i , j ∈ I i,j \in I i,jI u i ( x ) = Σ k = i m i u i ( e j k , x − j ) x j k u_i(x)=\Sigma_{k=i}^{m_i}u_i(e_j^k,x_{-j})x_{jk} ui(x)=Σk=imiui(ejk,xj)xjk

对任何的混合策略对 x 1 ∈ Δ 1 , x 2 ∈ Δ 2 x_1 \in \Delta_1,x_2 \in \Delta_2 x1Δ1,x2Δ2
u 1 ( x ) = Σ h = 1 m 1 Σ h = 2 m 2 x 1 h a h k x 2 k = x 1 A x 2 u_1(x)=\Sigma_{h=1}^{m_1}\Sigma_{h=2}^{m_2}x_{1h}a_{hk}x_{2k}=x_1Ax_2 u1(x)=Σh=1m1Σh=2m2x1hahkx2k=x1Ax2
u 2 ( x ) = Σ h = 1 m 1 Σ h = 2 m 2 x 1 h b h k x 2 k = x 1 B x 2 = x 2 B T x 1 u_2(x)=\Sigma_{h=1}^{m_1}\Sigma_{h=2}^{m_2}x_{1h}b_{hk}x_{2k}=x_1Bx_2=x_2B^Tx_1 u2(x)=Σh=1m1Σh=2m2x1hbhkx2k=x1Bx2=x2BTx1

请添加图片描述

最优反应

在这里插入图片描述

最佳反应集合

在这里插入图片描述
最优反应 β i ( y ) \beta_i(y) βi(y)是针对博弈方i的采取某个策略y收益最高的反应集合, β ( y ) \beta(y) β(y)则是将不同博弈方的策略进行笛卡尔积,因此说,最优反应是将策略组合映射至策略组合的集合;
最佳反应集合 β ∗ ( y ) \beta^*(y) β(y)则是将策略映射到策略集。
请添加图片描述

集值映射参考文章
https://zhuanlan.zhihu.com/p/187596916

  • 25
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值