混合策略
符号
标准博弈可以写成:
G
=
(
I
,
S
,
π
)
G=(I,S,\pi)
G=(I,S,π)
博弈方集合:
I
=
(
1
,
2
,
3...
,
n
)
I=(1,2,3...,n)
I=(1,2,3...,n),n为博弈方数目
有限纯策略集合:
S
i
=
{
1
,
2
,
.
.
.
,
m
i
}
S_i= \{1,2,...,m_i\}
Si={1,2,...,mi},
m
i
m_i
mi为博弈方能够采取的策略数目
纯策略空间:
S
=
X
i
S
i
,
X
i
S=X_iS_i,X_i
S=XiSi,Xi表示卡特尔积
对卡特尔积举个栗子
两个人进行剪刀石头布的游戏
I
=
2
,
S
i
=
{
剪
刀
,
石
头
,
布
}
,
I=2,S_i=\{剪刀,石头,布\},
I=2,Si={剪刀,石头,布},
S
=
{
(
剪
刀
,
剪
刀
)
,
(
剪
刀
,
石
头
)
,
(
剪
刀
,
布
)
,
(
石
头
,
石
头
)
,
(
石
头
,
剪
刀
)
,
(
石
头
,
布
)
,
(
布
,
布
)
,
(
布
,
剪
刀
)
,
(
布
,
石
头
)
}
S=\{(剪刀,剪刀),(剪刀,石头),(剪刀,布),(石头,石头),(石头,剪刀),(石头,布),(布,布),(布,剪刀),(布,石头)\}
S={(剪刀,剪刀),(剪刀,石头),(剪刀,布),(石头,石头),(石头,剪刀),(石头,布),(布,布),(布,剪刀),(布,石头)}
对于任何策略组合S,博弈方I的收益可以记为
π
i
(
s
)
\pi_i(s)
πi(s),
π
i
(
s
)
\pi_i(s)
πi(s)应该也可以写成
π
i
:
S
→
R
\pi_i:S\rightarrow R
πi:S→R
π
i
:
S
→
R
\pi_i:S\rightarrow R
πi:S→R为集值映射,意思为S中的每个策略,都可以对应成R中的每一个子集。
混合策略的空间几何
x
i
x_i
xi的支集(或承载形):
C
(
x
i
)
=
{
h
∈
S
i
:
x
i
h
>
0
}
C(x_i)=\{h\in S_i:x_{ih}>0\}
C(xi)={h∈Si:xih>0}
即为某混合策略
x
i
x_i
xi赋予正概率的纯策略的集合
比如:策略集={剪刀,石头,布},混合策略
x
i
=
(
1
/
2
,
1
/
2
,
0
)
x_i=(1/2,1/2,0)
xi=(1/2,1/2,0)
则
C
(
x
i
)
=
{
剪
刀
,
石
头
}
C(x_i)=\{剪刀,石头\}
C(xi)={剪刀,石头}
单纯形
Δ
i
=
{
x
i
∈
R
+
m
i
:
Σ
h
=
1
m
i
x
i
h
=
1
}
\Delta_i=\{x_i \in R_+^{m_i}:\Sigma_{h=1}^{m_i}x_{ih}=1\}
Δi={xi∈R+mi:Σh=1mixih=1}
Δ
i
\Delta_i
Δi的顶点为
m
i
m_i
mi维空间的单位向量(表示某个纯策略)
混合策略单纯形
Δ
i
\Delta_i
Δi是所有顶点的凸包。
每个混合策略
x
i
x_i
xi是纯策略
e
i
h
e_i^h
eih的凸组合。
凸集,凸组合,凸包,仿射组合:
凸包:S为欧式空间
R
n
R^n
Rn的任意子集,包含S的最小凸集称为S的凸包。
内部:
i
n
t
(
Δ
i
)
=
{
x
i
∈
Δ
i
:
x
i
h
>
0
,
∀
h
}
int (\Delta_i)=\{x_i\in \Delta_i:x_{ih}>0,\forall h\}
int(Δi)={xi∈Δi:xih>0,∀h}
外部:
b
d
(
Δ
i
)
=
{
x
i
∈
Δ
i
:
x
i
∉
i
n
t
(
Δ
i
)
}
bd(\Delta_i)=\{x_i\in \Delta_i:x_i\notin int(\Delta_i)\}
bd(Δi)={xi∈Δi:xi∈/int(Δi)}
其中,
x
i
x_i
xi为某个混合策略,
h
∈
S
i
h\in S_i
h∈Si即为第几个策略。
混合策略空间
Θ
=
X
i
∈
I
Δ
i
\Theta=X_{i\in I}\Delta_i
Θ=Xi∈IΔi(单纯形是某个博弈方的策略集合,策略空间是每个博弈方策略的笛卡尔积)
i
n
t
Θ
=
X
i
∈
I
i
n
t
(
Δ
i
)
int\Theta=X_{i\in I} int(\Delta_i)
intΘ=Xi∈Iint(Δi)
当且仅当C(x)=S(任意
x
i
h
x_{ih}
xih均大于0),对于
x
∈
Θ
:
x
∈
i
n
t
(
Θ
)
x\in \Theta:x\in int(\Theta)
x∈Θ:x∈int(Θ)的支集,记为
C
(
x
)
=
X
i
∈
I
C
(
X
i
)
⊂
S
C(x)=X_{i\in I}C(X_i)\subset S
C(x)=Xi∈IC(Xi)⊂S
- 如果子集 X ⊂ Θ X\subset \Theta X⊂Θ是各博弈方的笛卡尔积,那么X称为 Θ \Theta Θ的面,特别的, X = Θ X=\Theta X=Θ是 Θ \Theta Θ的一个面,而且是最大的一个面
- 每一个纯策略组合,可以视为 Θ \Theta Θ的一个单点子集,是一个边界面
- Θ \Theta Θ的边界面的并等同于集合 b d ( Θ ) bd(\Theta) bd(Θ)
策略组合的表示
博弈方i采取策略 x i ∈ Δ i x_i\in \Delta_i xi∈Δi,其他所有博弈方j按照策略组合 y ∈ Θ y\in\Theta y∈Θ 来行动,将此策略表示为: z = ( x i , y − i ) z=(x_i,y_{-i}) z=(xi,y−i)
混合策略收益函数
某个纯策略s被采用的概率就是每个博弈方的混合策略赋予他纯策略的概率之积
x
(
s
)
=
∏
i
=
1
n
x
i
s
i
x(s)=\prod_{i=1}^nx_{is_i}
x(s)=∏i=1nxisi
比如:
A
=
[
1
2
4
5
]
A= \left [ \begin{matrix} 1 & 2 \\ 4 & 5 \end{matrix} \right ]
A=[1425]
行博弈方策略
x
i
=
(
1
/
3
,
2
/
3
)
x_i=(1/3,2/3)
xi=(1/3,2/3),列博弈方策略
y
i
=
(
1
/
2
,
1
/
2
)
y_i=(1/2,1/2)
yi=(1/2,1/2)
则S={1,2}被采用的概率为
1
/
6
1/6
1/6
混合策略组合带给博弈方的期望收益值为
u
i
(
x
)
=
Σ
s
∈
S
x
(
s
)
π
i
(
s
)
u_i(x)=\Sigma_{s\in S}x(s)\pi_i(s)
ui(x)=Σs∈Sx(s)πi(s)
若将博弈方j运用第k个纯策略时博弈方i的收益记作
u
i
(
e
j
k
,
x
−
j
)
u_i(e_j^k,x_{-j})
ui(ejk,x−j)
对任何的
x
⊂
Θ
x\subset\Theta
x⊂Θ和
i
,
j
∈
I
i,j \in I
i,j∈I,
u
i
(
x
)
=
Σ
k
=
i
m
i
u
i
(
e
j
k
,
x
−
j
)
x
j
k
u_i(x)=\Sigma_{k=i}^{m_i}u_i(e_j^k,x_{-j})x_{jk}
ui(x)=Σk=imiui(ejk,x−j)xjk
对任何的混合策略对
x
1
∈
Δ
1
,
x
2
∈
Δ
2
x_1 \in \Delta_1,x_2 \in \Delta_2
x1∈Δ1,x2∈Δ2
有
u
1
(
x
)
=
Σ
h
=
1
m
1
Σ
h
=
2
m
2
x
1
h
a
h
k
x
2
k
=
x
1
A
x
2
u_1(x)=\Sigma_{h=1}^{m_1}\Sigma_{h=2}^{m_2}x_{1h}a_{hk}x_{2k}=x_1Ax_2
u1(x)=Σh=1m1Σh=2m2x1hahkx2k=x1Ax2
u
2
(
x
)
=
Σ
h
=
1
m
1
Σ
h
=
2
m
2
x
1
h
b
h
k
x
2
k
=
x
1
B
x
2
=
x
2
B
T
x
1
u_2(x)=\Sigma_{h=1}^{m_1}\Sigma_{h=2}^{m_2}x_{1h}b_{hk}x_{2k}=x_1Bx_2=x_2B^Tx_1
u2(x)=Σh=1m1Σh=2m2x1hbhkx2k=x1Bx2=x2BTx1
最优反应
最佳反应集合
最优反应
β
i
(
y
)
\beta_i(y)
βi(y)是针对博弈方i的采取某个策略y收益最高的反应集合,
β
(
y
)
\beta(y)
β(y)则是将不同博弈方的策略进行笛卡尔积,因此说,最优反应是将策略组合映射至策略组合的集合;
最佳反应集合
β
∗
(
y
)
\beta^*(y)
β∗(y)则是将策略映射到策略集。
集值映射参考文章
https://zhuanlan.zhihu.com/p/187596916