耶鲁大学《博弈论》课程——混合策略

混合策略 Mixed Strategy

image-20230117234539451

当对方为任一选择时,这里我出石头剪刀和布的期望都为(+1) * 1/3 + (-1) * 1/3 + 0 * 1/3=0
所以这里的纳什均衡是:
以1/3的概率随机出石头,剪刀或布。 – 策略随机化

**混合策略**用Pi表示,i表示参与人,Pi表示采用每个纯策略的概率,pi(si)表示在混合策略Pi下,参与人i采用si的概率,即Pi(si)是Pi赋予纯策略si的概率。(如前面的猜拳游戏,Pi=(1/3, 1/3, 1/3),Pi®=1/3),可以将纯策略看作是一种特殊的混合策略,即赋予某个策略的概率为1。前面讲的那些例子都是纯策略。

混合策略Pi的预期收益:每个纯策略预期收益的加权平均值。

image-20230118085750982 image-20230118085943045

结论:如果一个混合策略是BR,那么混合策略中的每一个纯策略也必须是BR,也就是说他们的收益必须相等。怎么理解? 因为混合策略是每个纯策略的加权平均,加权平均值是介于最小值和最大值之间的,也就是说,最小值只能拉低加权平均值,当加权平均值最大的时候,也就是等于最大值的时候,此时的纯策略就只有等于最大值的策略。比如说,对于策略集{3, 3, 2, 1},每个概率为1/4,此时的加权平均为9/4,小于最大值3,若要使加权平均最大,就不能有2和1这两个纯策略,此时策略集为{3,3},每个概率为1/2,此时的加权平均值最大,为3,此时的混合策略就是BR,它的每一个纯策略也是BR。)

**混合策略的纳什均衡:**混合策略Pi *=(P1 *, P2 *, … , Pn *)是一个NE状态,当且仅当对任意参与人i,在面对P *-i时他的混合策略Pi *是该参与人的BR。(含义:如果均衡中的某参与人采用了混合策略,则该混合策略中的纯策略,准确说是被赋予正概率的纯策略,一定是针对其他参与人策略的最佳决策。)

考虑混合策略的意义:

  • 混合策略可能优于一些纯策略(这些纯策略本身并不劣于其他纯策略);
  • 混合策略的最差情况可能好于所有纯策略的最差情况;
  • 如果我们只限于纯策略,那么,我们可能找不到博弈的纳什均衡。

网球博弈】案例:

参与人:Venus VS Serena;

策略:Venus可以选择把球打到Serena的左侧(反手)或者右侧(正手);

收益矩阵:(假设Senera右手截击水平要高于左手)

image-20230118094444604

例如:U1(L, r),Venus将球打向对手的左侧,而对手预判失误,防了右侧,那么Venus得分机会为80%,对手防守得分的机会为20%。

那么,Venus应该发挥自己的优势打右球呢,还是抓住Serena的软肋打左球?或者说,Serena应该发挥自己的优势向右倾斜呢,还是针对Venus的劣势向左倾斜呢?

不存在纯策略的NE,寻找混合策略的NE

image-20230118100318051

首先,我们找Serena的NE混合策略(q, 1-q),找它的技巧在于分析Venus的收益,Venus面对Serena采取(1, 1-q)时的收益如下:

image-20230118101005459

Serena采取混合决策,如果Venus也采取了混合策略,她有p的概率选左,1-p的概率选右,如果想要对Serena选取最佳决策,无论p多大,它必须是最佳决策,那么Venus选左和选右的收益要满足什么条件? 换句话说,选左和选右两种情况,本身也一定是最佳决策,如果不是,Venus就会排斥它们,因为只有这样才会提高平均收益。所以,如果Venus是混合策略NE,那么选左和选右的收益一定是相等的,此时左右都是最佳决策。

所以,联立1、2两式解得:q = 0.6,此时Serena混合策略NE(也就是说,当q=0.6时,Venus攻左和攻右,Venus的收益是相等的)。

而我们也知道了Venus采取混合策略,同理,要求Venus的混合策略NE,也要通过Serena的收益来求。

image-20230118102922619

联立1、2两式解得:p = 0.7,此时Venus混合策略NE(也就是说,当p=0.7时,Serena防左和防右,Serena的收益是相等的)。

所以,整体混合策略纳什均衡为: NE = [(0.7, 0.3), (0.6, 0.4)]

  • 如果Serena防左的概率大于0.6,那么Venus的BR是把球打向右侧;
  • 如果Serena防左的概率小于0.6,那么Venus的BR是把球打向左侧;
  • 如果Venus攻左的概率大于0.7,那么Serena的BR是防守左侧;
  • 如果Venus攻左的概率小于0.7,那么Serena的BR是防守右侧;

如果,Serena有了个新教练,Serena打反手球(防左侧)的水平提高了,如下图所示,

image-20230118104642385

我们推测,这就会:直接影响q提高;间接影响、战略影响q降低(先是S防左的概率提高,导致V攻左的概率降低,攻右的概率提高,再导致S防右的概率提高,防左的概率相对降低),那么哪种影响的作用更大呢?

我们使用上面同样的方法,解得新的q’ = 0.5,也就是说明,间接影响更大。(此时的p‘ = 7/12 < 7/10)

**验证混合策略中的{p *=0.7, q *=0.6}是否是BR,以Venus为例,验证Venus的混合决策p 是Serena的混合决策q 的最佳对策:

Venus在对手采取(0.6, 0.4)的混合策略下纯策略的收益分别是:

image-20230118115134601 image-20230118115155250

Venus在采取混合策略p*的收益是:

image-20230118115249069

所以,Venus不存在改变纯策略的严格有利改变,她任何一个纯策略的收益都与混合策略p*的收益相等。比如改为一直选L,即p=1,此时的收益仍然是62不变,不存在严格增益,因为混合策略的收益等于所混合纯策略收益的加权平均,那么既然改选纯策略并不严格增益,那么该选混合策略必然不是严格有利改变。

结论:要证混合策略是否是均衡(最佳对策)的,只需要考虑改变纯策略是否严格有利即可。

约会游戏】案例:

参与人为Nina(女)和David(男),策略为去摘苹果(apple picking)或耶鲁剧院看戏(Yale Rep and see play),两人都有自己的偏好,但约会前两人忘记了协商,收益如下:

image-20230118132446527

由上一节可知,在性别大战中,两人的纯策略均衡为(AP, AP)和(REP, REP),那么是否存在混合策略均衡?

找David的混合策略NE的q*,要通过Nina的收益来求:

image-20230118135213869

之后,我们可以算出混合策略的收益也是2/3。为什么并非最大值2呢?因为其实他们见面的概率并不大,只有1/3 * 2/3 + 1/3 * 2/3 = 4/9。那么,为什么要选择随机化呢? 我们可以把David的混合策略看成是Nina对于David会怎么做的一种信念,David可能并不是完全随机的,同样,Nina可能也并不是完全随机的,Nina的混合策略也可以看成是David对于Nina会怎么做的一种信念。

所以,此时混合策略并不完全是随机的,我们可以把混合策略看成是处于均衡时人们的某些信念。

税收检查】案例:

参与人:纳税人tax payer、审计员auditor

策略:对于纳税人来说有如实申报honestly和隐瞒申报cheat,对于审计员来说有审查audit和不审查no

收益:

image-20230118145859178

纯策略不存在NE,寻找混合策略的NE。

通过审计员的收益来求得纳税人的混合策略:

image-20230118153339455

政策实验,提高惩罚,从-10增加到-20。

image-20230118154621664

此时,你觉得,什么会改变?纳税人的纳税意愿会改变吗?

审计员的收益等式并未发生变化,因为他的收益没有变,所以q‘=2/3。也就是说,提高惩罚并没有对纳税人的纳税意愿造成影响,那么什么对纳税意愿有影响呢,或者说,是什么决定了纳税人的混合策略? => 是审计员的收益,当审计员的收益改变时,列出来的等式才会变化,q才会变化。

那么,提高惩罚影响的是什么呢? => 审计员的审计概率。

image-20230118164043257

由此可知,**提高逃税惩罚,并不会提高纳税人的纳税意愿,反而会降低审计员的审计概率(**1/6 < 2/7)。

同理,提高逃税的收益(即收益矩阵中右下角的4),会使得审计员审计概率的增加,因此,耶鲁商学院高收入的教授反而拥有更高的纳税意愿,因为有较高的审计概率存在;联邦审查率的设计更多的去审查富人,这并不是说明穷人比富人更诚实,而是因为富人逃税的收益更大,需要更多的进行审查才能达到均衡;如果想要提高纳税人的纳税意愿,你就要提高审计员审计的收益或者降低审计的成本。

  • 5
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值