精炼贝叶斯相关均衡概念的不完全信息动态博弈的分析
就业市场信号博弈
求职者和雇主,
θ
θ
θ为求职者的私人类型:
θ
=
L
θ=L
θ=L表示求职者的劳动生产率为
L
L
L
θ
=
H
θ=H
θ=H表示求职者的劳动生产率为
H
H
H
H
>
L
H>L
H>L,
θ
θ
θ的概率分布为
p
θ
=
L
=
q
p{θ=L}=q
pθ=L=q,
p
θ
=
H
=
1
−
q
p{θ=H}=1-q
pθ=H=1−q是共同知识
由于劳动力市场的竞争性,使得雇主雇佣工人的期望利润为0。在完全信息下雇主以
w
=
θ
w=θ
w=θ给工人发工资,是两个局中人的帕累托最优。当
θ
θ
θ是求职者的私人类型时,求职者占有利信息优势,雇主只能以
w
=
q
L
+
(
1
−
q
)
H
=
H
+
(
L
−
H
)
q
w=qL+(1-q)H=H+(L-H)q
w=qL+(1−q)H=H+(L−H)q雇佣工人,这时
θ
=
H
θ=H
θ=H的工人就会退出市场。这就是信息不对称造成的逆向选择问题。
为了解决这一问题,求职者以受教育程度
e
∈
(
0
,
∞
)
e∈(0,∞)
e∈(0,∞)作为信号发给雇主,以使雇主可以区别两类求职者。
受教育程度e需要付出成本
C
(
θ
,
e
)
C(θ,e)
C(θ,e),
C
(
H
,
e
)
>
C
(
L
,
e
)
C(H,e)>C(L,e)
C(H,e)>C(L,e),设
C
(
θ
,
e
)
=
e
θ
C(θ,e)=\frac eθ
C(θ,e)=θe
考虑分级均衡
e
(
θ
)
=
{
e
1
<
e
∗
θ
=
L
e
2
≥
e
∗
θ
=
H
\begin{aligned} \\ e(\theta) =\left\{\begin{matrix}e_1<e^*&\quad\theta=L\\ e_2\ge e^*&\quad\theta=H\end{matrix}\right. \end{aligned}
e(θ)={e1<e∗e2≥e∗θ=Lθ=H
求职者会根据利益最大化选择分离均衡
e
(
θ
)
=
{
0
θ
=
L
e
∗
θ
=
H
\begin{aligned} \\ e\left(\theta\right) =\left\{\begin{array}{ll}0&\quad\theta=L\\ e^*&\quad\theta=H\end{array}\right. \end{aligned}
e(θ)={0e∗θ=Lθ=H
所以雇主的推断为
p
(
θ
=
L
∣
e
=
0
)
=
1
p
(
θ
=
H
∣
e
=
e
∗
)
=
1
p(\theta=L|e=0)=1\\p(\theta=H|e=e^*)=1
p(θ=L∣e=0)=1p(θ=H∣e=e∗)=1
相应工资水平为
w
(
e
)
=
{
L
e
=
0
H
e
=
e
∗
w(e)={\left\{\begin{array}{l l l}{L}&{}&{}&{e=0}\\ {H}&{}&{}&{e=e^{*}}\end{array}\right.}
w(e)={LHe=0e=e∗
θ
=
L
θ=L
θ=L时,
L
≥
H
−
e
∗
/
L
L≥H-e^*/L
L≥H−e∗/L,
θ
=
H
θ=H
θ=H时,
L
≤
H
−
e
∗
/
H
L≤H-e^*/H
L≤H−e∗/H,
所以
e
∗
e^*
e∗的取值范围为
e
∗
∈
[
L
(
H
−
L
)
,
H
(
H
−
L
)
]
e^*∈[L(H-L),H(H-L)]
e∗∈[L(H−L),H(H−L)]
考虑混合均衡 e ( θ ) ≡ e ∗ e(θ)≡e^* e(θ)≡e∗
雇主的推断为
p
(
θ
=
L
∣
e
<
e
∗
)
=
1
p
(
θ
=
L
∣
e
≥
e
∗
)
=
q
p
(
θ
=
H
∣
e
≥
e
∗
)
=
1
−
q
p(\theta=L|e<e^*)=1\\p(\theta=L|e\geq e^*)=q\\p(\theta=H|e\geq e^*)=1-q
p(θ=L∣e<e∗)=1p(θ=L∣e≥e∗)=qp(θ=H∣e≥e∗)=1−q
相应工资水平为
w
(
e
)
=
{
L
e
<
e
∗
q
L
+
(
1
−
q
)
H
e
≥
e
∗
w(e)={\left\{\begin{array}{l l l}{L}&{}&{}&{e<e^*}\\ {qL+(1-q)H}&{}&{}&{e≥e^{*}}\end{array}\right.}
w(e)={LqL+(1−q)He<e∗e≥e∗
θ
=
L
θ=L
θ=L时,
L
≥
H
+
(
L
−
H
)
q
−
e
∗
/
L
L≥H+(L-H)q-e^*/L
L≥H+(L−H)q−e∗/L;
θ
=
H
时,
L
≤
H
+
(
L
−
H
)
q
−
e
∗
/
H
θ=H时,L≤H+(L-H)q-e^*/H
θ=H时,L≤H+(L−H)q−e∗/H;
所以
e
∗
e^*
e∗的取值范围应为
e
∗
∈
[
L
(
H
−
L
)
(
1
−
q
)
,
H
(
H
−
L
)
(
1
−
q
)
]
e^*∈[L(H-L)(1-q),H(H-L)(1-q)]
e∗∈[L(H−L)(1−q),H(H−L)(1−q)]
囚徒困境(prisoner’s dilemma)
有限次囚徒困境中,假设囚徒1有两种类型:理性和非理性,这是囚徒1的私人类型。两种类型的概率分布为两个人的共同知识。
P
(
理性
)
=
1
−
p
P(理性)=1-p
P(理性)=1−p,
P
(
非理性
)
=
p
P(非理性)=p
P(非理性)=p
囚徒2是理性的,理性的囚徒可以选择任何策略,而非理性的囚徒仅选择“针锋相对”的策略,即第一阶段选择合作而在
t
>
1
t>1
t>1阶段选择与对手在
t
−
1
t-1
t−1阶段相同的行动。
- 自然首先选择囚徒 1 的类型 囚徒 A 知道自己的类型 囚徒 B 只知道1属于理性的概率为1-p,非理性的概率为p;
- 两个囚徒进行第一阶段的博弈;
- 观测到第一阶段博弈结果后,进行第二阶段博弈,观测到第二阶段博弈结果之后 进行第三阶段博弈,如此重复直到结束。
支付矩阵为 a > 1 a>1 a>1, b < 0 b<0 b<0, a + b < 2 a+b<2 a+b<2
D | C | |
---|---|---|
D | (1,1) | (b,1) |
C | (a,b) | (0,0) |
T = 1 | T = 2 | |
---|---|---|
非理性囚徒1 | D | X |
理性囚徒1 | C | C |
囚徒2 | X | C |
X=D,囚徒2的期望支付为
p
(
1
+
a
)
+
(
1
−
p
)
b
p(1+a)+(1-p)b
p(1+a)+(1−p)b;
X=C,囚徒2的期望支付为
a
p
ap
ap。
所以,囚徒2第一阶段选择D的充要条件是
p
(
1
+
a
)
+
(
1
−
p
)
b
>
a
p
p(1+a)+(1-p)b>ap
p(1+a)+(1−p)b>ap
理性的囚徒1和非理性的囚徒1都没有动机违反以上策略。
囚徒2的期望支付为
1
+
p
+
(
1
−
p
)
b
+
a
p
1+p+(1-p)b+ap
1+p+(1−p)b+ap
当
1
+
p
+
(
1
−
p
)
b
+
a
p
>
a
1+p+(1-p)b+ap>a
1+p+(1−p)b+ap>a且
1
+
p
+
(
1
−
p
)
b
+
a
p
>
a
+
b
+
a
p
1+p+(1-p)b+ap>a+b+ap
1+p+(1−p)b+ap>a+b+ap时囚徒2没有动机背叛。
T = 1 | T = 2 | T = 3 | |
---|---|---|---|
非理性囚徒1 | D | D | D |
理性囚徒1 | D | C | C |
囚徒2 | D | D | C |
当博弈重复三次时,C不一定是理性囚徒1在第一阶段的最优选择,因为尽管选择C在第一阶段得到最大收益(如果囚徒2选择D),但暴露出来1是理性的,囚徒2在第二阶段就不会选择D。
对于T期重复的囚徒困境博弈,如果阶段博弈支付矩阵中元素 a a a, b b b以及非理性囚徒1的概率 p p p满足 p ( 1 + a ) + ( 1 − p ) b > a p p(1+a)+(1-p)b>ap p(1+a)+(1−p)b>ap, 1 + p + ( 1 − p ) b + a p > a 1+p+(1-p)b+ap>a 1+p+(1−p)b+ap>a, 1 + p + ( 1 − p ) b + a p > a + b + a p 1+p+(1-p)b+ap>a+b+ap 1+p+(1−p)b+ap>a+b+ap,则对于所有 T > 3 T>3 T>3都存在以下合作均衡。
t = T - 1 | t = T | |
---|---|---|
非理性囚徒1 | D | X |
理性囚徒1 | C | C |
囚徒2 | X | C |
性别博弈(Battle of the sexes)
相关均衡(Correlated Equilibria, CE)以及 粗相关均衡(Coarse Correlated Equilibria, CCE)的分析
球赛Football | 电影Movie | |
---|---|---|
球赛Football | (2,1) | (0,0) |
电影Movie | (0,0) | (1,2) |
这个博弈有三个纳什均衡:
(
M
,
M
)
(M,M)
(M,M),
(
F
,
F
)
(F,F)
(F,F),
(
2
/
3
F
+
1
/
3
M
,
1
/
3
F
+
2
/
3
M
)
(2/3F+1/3M,1/3F+2/3M)
(2/3F+1/3M,1/3F+2/3M)。其中第三个均衡为混合策略均衡,男生和女生分别以
2
/
3
2/3
2/3的概率选择自己喜欢的行动。
接下来分析相关均衡的概念。
首先,每个相关均衡都是一个在策略组合的集合
{
F
,
M
}
×
{
F
,
M
}
\{F,M\}×\{F,M\}
{F,M}×{F,M} 上的概率分布
p
p
p,
p
p
p构成相关均衡的条件是,在按照p随机抽取行动组合推荐给参与人时,每个参与人在接收到行动推荐后,给定根据
p
p
p计算出的对方收到的行动推荐的条件概率并假定对方会服从,那么他的最优选择就是服从推荐。
- 参与人1在收到行动推荐Football时,选择Football是最优(即好过选择Movie)。给定条件概率,我们可以计算出F和M分别带来的收益,得到不等式
1 F : 2 a a + b + 0 b a + b ≥ 0 a a + b + 1 b a + b 1F:2 \frac a{a+b}+0 \frac b{a+b}≥0 \frac a{a+b}+1 \frac b{a+b} 1F:2a+ba+0a+bb≥0a+ba+1a+bb - 同理,在1收到推荐Movie和2分别收到两个行动推荐时,服从推荐都需要是最优选择,于是如下三个不等式需要满足
1 B : 0 c + 1 d ≥ 2 c + 0 d 2 F : 1 a + 0 c ≥ 0 a + 2 c 2 B : 0 b + 2 d ≥ 1 b + 0 d 1B:0c+1d≥2c+0d \\ 2F:1a+0c≥0a+2c \\ 2B:0b+2d≥1b+0d 1B:0c+1d≥2c+0d2F:1a+0c≥0a+2c2B:0b+2d≥1b+0d
整理后,得到
a + b + c + d = 1 , a , b , c , d ≥ 0 a , d ≥ 2 c , a , d ≥ b / 2 a+b+c+d=1,a,b,c,d≥0\\a,d≥2c,a,d≥b/2 a+b+c+d=1,a,b,c,d≥0a,d≥2c,a,d≥b/2
所有满足以上不等式组的 a , b , c , d a,b,c,d a,b,c,d所定义的概率分布 p p p都是性别博弈的相关均衡。由于以上不等式的解的集合是一个多面体(准确地说,是有五个顶点的六面体)和它的内部,相关均衡的集合自然就是一个凸集。并且该凸集包含纳什均衡的凸包。
相关均衡 ( a , b , c , d ) = ( 1 / 2 , 0 , 0 , 1 / 2 ) (a,b,c,d)=(1/2,0,0,1/2) (a,b,c,d)=(1/2,0,0,1/2)以一半概率选择 ( M , M ) (M,M) (M,M)一半概率选择 ( F , F ) (F,F) (F,F),带来的期望支付是 ( 3 / 2 , 3 / 2 ) (3/2,3/2) (3/2,3/2) 是三个纳什均衡都达不到的。而相关均衡 ( a , b , c , d ) = ( 1 / 4 , 1 / 2 , 0 , 1 / 4 ) , ( 2 / 5 , 0 , 1 / 5 , 2 / 5 ) (a,b,c,d)=(1/4,1/2,0,1/4),(2/5,0,1/5,2/5) (a,b,c,d)=(1/4,1/2,0,1/4),(2/5,0,1/5,2/5)则不在三个纳什均衡构成的凸包中。