计算博弈题目分析

精炼贝叶斯相关均衡概念的不完全信息动态博弈的分析

就业市场信号博弈

求职者和雇主, θ θ θ为求职者的私人类型:
θ = L θ=L θ=L表示求职者的劳动生产率为 L L L
θ = H θ=H θ=H表示求职者的劳动生产率为 H H H
H > L H>L H>L θ θ θ的概率分布为 p θ = L = q p{θ=L}=q pθ=L=q, p θ = H = 1 − q p{θ=H}=1-q pθ=H=1q是共同知识
由于劳动力市场的竞争性,使得雇主雇佣工人的期望利润为0。在完全信息下雇主以 w = θ w=θ w=θ给工人发工资,是两个局中人的帕累托最优。当 θ θ θ是求职者的私人类型时,求职者占有利信息优势,雇主只能以 w = q L + ( 1 − q ) H = H + ( L − H ) q w=qL+(1-q)H=H+(L-H)q w=qL+(1q)H=H+(LH)q雇佣工人,这时 θ = H θ=H θ=H的工人就会退出市场。这就是信息不对称造成的逆向选择问题。
为了解决这一问题,求职者以受教育程度 e ∈ ( 0 , ∞ ) e∈(0,∞) e(0)作为信号发给雇主,以使雇主可以区别两类求职者。
受教育程度e需要付出成本 C ( θ , e ) C(θ,e) C(θ,e) C ( H , e ) > C ( L , e ) C(H,e)>C(L,e) C(H,e)>C(L,e),设 C ( θ , e ) = e θ C(θ,e)=\frac eθ C(θ,e)=θe
考虑分级均衡
e ( θ ) = { e 1 < e ∗ θ = L e 2 ≥ e ∗ θ = H \begin{aligned} \\ e(\theta) =\left\{\begin{matrix}e_1<e^*&\quad\theta=L\\ e_2\ge e^*&\quad\theta=H\end{matrix}\right. \end{aligned} e(θ)={e1<ee2eθ=Lθ=H
求职者会根据利益最大化选择分离均衡
e ( θ ) = { 0 θ = L e ∗ θ = H \begin{aligned} \\ e\left(\theta\right) =\left\{\begin{array}{ll}0&\quad\theta=L\\ e^*&\quad\theta=H\end{array}\right. \end{aligned} e(θ)={0eθ=Lθ=H
所以雇主的推断为
p ( θ = L ∣ e = 0 ) = 1 p ( θ = H ∣ e = e ∗ ) = 1 p(\theta=L|e=0)=1\\p(\theta=H|e=e^*)=1 p(θ=Le=0)=1p(θ=He=e)=1
相应工资水平为
w ( e ) = { L e = 0 H e = e ∗ w(e)={\left\{\begin{array}{l l l}{L}&{}&{}&{e=0}\\ {H}&{}&{}&{e=e^{*}}\end{array}\right.} w(e)={LHe=0e=e
θ = L θ=L θ=L时, L ≥ H − e ∗ / L L≥H-e^*/L LHe/L
θ = H θ=H θ=H时, L ≤ H − e ∗ / H L≤H-e^*/H LHe/H
所以 e ∗ e^* e的取值范围为
e ∗ ∈ [ L ( H − L ) , H ( H − L ) ] e^*∈[L(H-L),H(H-L)] e[L(HL),H(HL)]

考虑混合均衡 e ( θ ) ≡ e ∗ e(θ)≡e^* e(θ)e

雇主的推断为
p ( θ = L ∣ e < e ∗ ) = 1 p ( θ = L ∣ e ≥ e ∗ ) = q p ( θ = H ∣ e ≥ e ∗ ) = 1 − q p(\theta=L|e<e^*)=1\\p(\theta=L|e\geq e^*)=q\\p(\theta=H|e\geq e^*)=1-q p(θ=Le<e)=1p(θ=Lee)=qp(θ=Hee)=1q
相应工资水平为 w ( e ) = { L e < e ∗ q L + ( 1 − q ) H e ≥ e ∗ w(e)={\left\{\begin{array}{l l l}{L}&{}&{}&{e<e^*}\\ {qL+(1-q)H}&{}&{}&{e≥e^{*}}\end{array}\right.} w(e)={LqL+(1q)He<eee
θ = L θ=L θ=L时, L ≥ H + ( L − H ) q − e ∗ / L L≥H+(L-H)q-e^*/L LH+(LH)qe/L
θ = H 时, L ≤ H + ( L − H ) q − e ∗ / H θ=H时,L≤H+(L-H)q-e^*/H θ=H时,LH+(LH)qe/H
所以 e ∗ e^* e的取值范围应为 e ∗ ∈ [ L ( H − L ) ( 1 − q ) , H ( H − L ) ( 1 − q ) ] e^*∈[L(H-L)(1-q),H(H-L)(1-q)] e[L(HL)(1q),H(HL)(1q)]

囚徒困境(prisoner’s dilemma)

有限次囚徒困境中,假设囚徒1有两种类型:理性和非理性,这是囚徒1的私人类型。两种类型的概率分布为两个人的共同知识。
P ( 理性 ) = 1 − p P(理性)=1-p P(理性)=1p P ( 非理性 ) = p P(非理性)=p P(非理性)=p
囚徒2是理性的,理性的囚徒可以选择任何策略,而非理性的囚徒仅选择“针锋相对”的策略,即第一阶段选择合作而在 t > 1 t>1 t>1阶段选择与对手在 t − 1 t-1 t1阶段相同的行动。

  1. 自然首先选择囚徒 1 的类型 囚徒 A 知道自己的类型 囚徒 B 只知道1属于理性的概率为1-p,非理性的概率为p;
  2. 两个囚徒进行第一阶段的博弈;
  3. 观测到第一阶段博弈结果后,进行第二阶段博弈,观测到第二阶段博弈结果之后 进行第三阶段博弈,如此重复直到结束。

支付矩阵为 a > 1 a>1 a>1, b < 0 b<0 b<0, a + b < 2 a+b<2 a+b<2

DC
D(1,1)(b,1)
C(a,b)(0,0)
T = 1T = 2
非理性囚徒1DX
理性囚徒1CC
囚徒2XC

X=D,囚徒2的期望支付为 p ( 1 + a ) + ( 1 − p ) b p(1+a)+(1-p)b p(1+a)+(1p)b;
X=C,囚徒2的期望支付为 a p ap ap
所以,囚徒2第一阶段选择D的充要条件是 p ( 1 + a ) + ( 1 − p ) b > a p p(1+a)+(1-p)b>ap p(1+a)+(1p)b>ap
理性的囚徒1和非理性的囚徒1都没有动机违反以上策略。
囚徒2的期望支付为 1 + p + ( 1 − p ) b + a p 1+p+(1-p)b+ap 1+p+(1p)b+ap
1 + p + ( 1 − p ) b + a p > a 1+p+(1-p)b+ap>a 1+p+(1p)b+ap>a 1 + p + ( 1 − p ) b + a p > a + b + a p 1+p+(1-p)b+ap>a+b+ap 1+p+(1p)b+ap>a+b+ap时囚徒2没有动机背叛。

T = 1T = 2T = 3
非理性囚徒1DDD
理性囚徒1DCC
囚徒2DDC

当博弈重复三次时,C不一定是理性囚徒1在第一阶段的最优选择,因为尽管选择C在第一阶段得到最大收益(如果囚徒2选择D),但暴露出来1是理性的,囚徒2在第二阶段就不会选择D。

对于T期重复的囚徒困境博弈,如果阶段博弈支付矩阵中元素 a a a, b b b以及非理性囚徒1的概率 p p p满足 p ( 1 + a ) + ( 1 − p ) b > a p p(1+a)+(1-p)b>ap p(1+a)+(1p)b>ap, 1 + p + ( 1 − p ) b + a p > a 1+p+(1-p)b+ap>a 1+p+(1p)b+ap>a, 1 + p + ( 1 − p ) b + a p > a + b + a p 1+p+(1-p)b+ap>a+b+ap 1+p+(1p)b+ap>a+b+ap,则对于所有 T > 3 T>3 T>3都存在以下合作均衡。

t = T - 1t = T
非理性囚徒1DX
理性囚徒1CC
囚徒2XC

性别博弈(Battle of the sexes)

相关均衡(Correlated Equilibria, CE)以及 粗相关均衡(Coarse Correlated Equilibria, CCE)的分析

球赛Football电影Movie
球赛Football(2,1)(0,0)
电影Movie(0,0)(1,2)

  这个博弈有三个纳什均衡: ( M , M ) (M,M) (M,M) ( F , F ) (F,F) (F,F) ( 2 / 3 F + 1 / 3 M , 1 / 3 F + 2 / 3 M ) (2/3F+1/3M,1/3F+2/3M) (2/3F+1/3M,1/3F+2/3M)。其中第三个均衡为混合策略均衡,男生和女生分别以 2 / 3 2/3 2/3的概率选择自己喜欢的行动。
  接下来分析相关均衡的概念。
  首先,每个相关均衡都是一个在策略组合的集合 { F , M } × { F , M } \{F,M\}×\{F,M\} {F,M}×{F,M} 上的概率分布 p p p p p p构成相关均衡的条件是,在按照p随机抽取行动组合推荐给参与人时,每个参与人在接收到行动推荐后,给定根据 p p p计算出的对方收到的行动推荐的条件概率并假定对方会服从,那么他的最优选择就是服从推荐。

  1. 参与人1在收到行动推荐Football时,选择Football是最优(即好过选择Movie)。给定条件概率,我们可以计算出F和M分别带来的收益,得到不等式
    1 F : 2 a a + b + 0 b a + b ≥ 0 a a + b + 1 b a + b 1F:2 \frac a{a+b}+0 \frac b{a+b}≥0 \frac a{a+b}+1 \frac b{a+b} 1F:2a+ba+0a+bb0a+ba+1a+bb
  2. 同理,在1收到推荐Movie和2分别收到两个行动推荐时,服从推荐都需要是最优选择,于是如下三个不等式需要满足
    1 B : 0 c + 1 d ≥ 2 c + 0 d 2 F : 1 a + 0 c ≥ 0 a + 2 c 2 B : 0 b + 2 d ≥ 1 b + 0 d 1B:0c+1d≥2c+0d \\ 2F:1a+0c≥0a+2c \\ 2B:0b+2d≥1b+0d 1B:0c+1d2c+0d2F:1a+0c0a+2c2B:0b+2d1b+0d
    整理后,得到
    a + b + c + d = 1 , a , b , c , d ≥ 0 a , d ≥ 2 c , a , d ≥ b / 2 a+b+c+d=1,a,b,c,d≥0\\a,d≥2c,a,d≥b/2 a+b+c+d=1,a,b,c,d0a,d2c,a,db/2
      所有满足以上不等式组的 a , b , c , d a,b,c,d a,b,c,d所定义的概率分布 p p p都是性别博弈的相关均衡。由于以上不等式的解的集合是一个多面体(准确地说,是有五个顶点的六面体)和它的内部,相关均衡的集合自然就是一个凸集。并且该凸集包含纳什均衡的凸包。
      相关均衡 ( a , b , c , d ) = ( 1 / 2 , 0 , 0 , 1 / 2 ) (a,b,c,d)=(1/2,0,0,1/2) (a,b,c,d)=(1/2,0,0,1/2)以一半概率选择 ( M , M ) (M,M) (M,M)一半概率选择 ( F , F ) (F,F) (F,F),带来的期望支付是 ( 3 / 2 , 3 / 2 ) (3/2,3/2) (3/2,3/2) 是三个纳什均衡都达不到的。而相关均衡 ( a , b , c , d ) = ( 1 / 4 , 1 / 2 , 0 , 1 / 4 ) , ( 2 / 5 , 0 , 1 / 5 , 2 / 5 ) (a,b,c,d)=(1/4,1/2,0,1/4),(2/5,0,1/5,2/5) (a,b,c,d)=(1/4,1/2,0,1/4),(2/5,0,1/5,2/5)则不在三个纳什均衡构成的凸包中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值