耶鲁大学《博弈论》课程——非完美信息

非完美信息 Imperfect Information

前面了解了同步竞价的博弈(参与人做决策时不知道其他参与人的决策)和具有完美信息的序贯博弈(我在做决策时,完全知道你做了什么决策,并且你知道我知道你的决策)。在后面这几节,会学习一种在这两种情况下的战略局势,同时分析序贯博弈和同步竞价博弈

image-20230120114021130 image-20230120114148548

这里引入一个概念:信息集合(Information set),参与人i的信息集合是一系列参与人i无法识别对方决策的参与人i的节点。这里注意,有两种树图是没有意义的:

image-20230120115139595 image-20230120115230621

**完美信息Perfect information:**简单来说就是博弈过程中,每一个参与人都知道之前的行动。形式化来说,完美信息是指,树图上的所有信息集合都只包含一个节点,也就是说,每个参与者都对博弈的历史阶段都有完美记忆(也就是前面那几节的形式)。

这里,我们研究非完美信息的博弈,这其实在日常中更常见,有时候我知道你做了什么,有时候又不知道。

在非完美信息的博弈中,参与人i的纯策略指的是一个完全的行动计划,它告诉参与人i在他的每一个信息集合一定要如何行动。

博弈的关键是信息,而不是时序。

案例1】:

如下图所示博弈树:

image-20230120144321271

参与人1的策略:Uu、Ud、Du、Dd

参与人2的策略:l、r

image-20230120144808642

如果按照之前的纳什均衡,可以找到三个均衡点:(Uu, l) (Du, r) (Dd, r)。

但是,我们使用逆向归纳法分析博弈树,先看参与者2,不知道参与者1选了什么,但是只有两种策略,要么l,要么r,可以看出来,选l的收益是4或0,而选r的收益一定是4(因为参与者1一定不会选Uu),所以也就确定参与者2选择了r,然后再看参与者1,此时明显参与者1第一次选择会选D,所以也就找到了最佳决策是(Dd, r)。

由此可知,前面学的纳什均衡找到的均衡点,有可能是没有意义的。

案例2】:

三人博弈,阐述纳什均衡问题。

image-20230120152835458 image-20230120152852305 image-20230120152921961 image-20230120153033150

NE(A, U, l)这个均衡并不可信,因为这个均衡,在进入子博弈时是无法达到均衡的。

子博弈(Sub-game)是博弈的一部分,它满足三个条件:

  • 子博弈必须从单个节点开始;
  • 它包含该节点的所有后代节点;
  • 它不能破坏任何信息集合。

如果(s1 *, s2 *, …, sm *)它们能在任意一个子博弈中达到均衡,那它就是一个【子博弈完美均衡(SPE, sub-game perfect equilibrium)】,子博弈完美NE的一个重要特点是它可以排除不可信的威胁。(要成为SPE,本身必须是一个NE。)

在这个例子中,SPE(B, D, r)。

别搞砸了】案例:

image-20230120162226357

在这类案例中,参与人1需要确信参与人2会使用逆向归纳法,而且参与人1要相信,参与人2相信参与人1不会在最后一步搞砸,同时也要相信参与人2不会搞砸。

image-20230120163507341

纳什均衡NE:(Uu, l) (Du, r) (Dd, r)

逆向归纳BI:(Uu, l)

由此可见,纳什均衡得到的结果和逆向归纳得到的结果并不完全一样,前者中有两个结果实际上并不会被选择。

这里使用子博弈精炼均衡方法尝试:

image-20230120165320719

图中淡绿色的子博弈中的NE为(u),

image-20230120165418873

排除总体纳什均衡中的(Dd, r);

image-20230120165523999

图中淡红色子博弈中的NE为(u, l)和(d, r),

image-20230120165633482

再排除总体纳什均衡中的(Du, r);

最后就剩下了唯一一个子博弈精炼均衡SPE(Uu, l)。

也就是说,子博弈精炼均衡的效果是和逆向归纳法是一样的

介绍人博弈】案例:

介绍人(参与人1)想要撮合大卫(2)和妮娜(3),准备安排(send)两人一起上课,但是忘了说是哪一节课,大卫倾向Gaddis的《Cold War》,妮娜倾向Spence的《China》,博弈树如下所示:

image-20230120171842845

看黄色这个子博弈:

image-20230120172016967

此时,纯策略的NE(G, G)和(S, S)都会为参与人1带来1的收益,整体博弈SPE=(send, G, G)(send, S, S),站在参与人1的角度,1的收益是优于0的,只要参与人2和3能达到均衡即可。

在这个博弈中,还有第三种均衡,即混合策略均衡。

而由前面几节得到的,性别大战中混合策略NE[(2/3, 1/3), (1/3, 2/3)]。

参与人1撮合参与人2和3,他们碰面的概率是: 2/3 * 1/3 + 1/3 * 2/3 = 4/9。

参与人1撮合时,均衡中的预期收益时:4/9 * 1 + 5/9 * (-1) = -1/9。

站在参与人1的角度,0的收益相对于-1/9是优势策略,他应该选择不撮合。SPE是(不撮合,混合策略,混合策略)。

要求解子博弈精炼均衡,只需要保持头脑清醒,求出每个子博弈的纳什均衡,然后顺着收益往回看,分析博弈树前一节点的最佳均衡。

投资】案例:

有A和B两个公司,最初处于古诺竞争之中,情况如下图所示:

image-20230120174537356 image-20230120174715714
  • 会计学的答案:

    原方案年产一百万吨,使用新设备,每吨节约0.5美元,一年也就节约50万,而租用设备要70万,70 > 50,所以不应该租用。

    这里的问题在于:当你的边际成本降低了之后,你会增产!

  • 经济学的答案:

    假设自己垄断,那么产量应该按照边际收益=边际成本来算。

    image-20230120211148805

    红色矩形部分是会计师的答案,他们忽略了因为成本的降低,厂家会调整产量,也就是绿色的这个三角形。

    image-20230120175757297

    使用经济学的方法计算,租用新设备的盈利仍然是小于租金的,应该选择不租用。

  • 博弈论的答案:

    经济学方法的问题在于,仅仅考虑了自身的产量变化。而市场还处于古诺竞争当中,还需要考虑B厂商的产量变化。

    image-20230120212257905 image-20230120212313216

    最终投资结果可以再带来31万的收益,69+31=100>70,所以应当租用设备。

对于这类案例,要先分析子博弈,找到子博弈的纳什均衡,从子博弈的价值出发回头做决定。

image-20230120213027013

先根据对称古诺竞争数据,解出新的均衡,回过头来和那要投资的70万作比较。

经济学比会计学多考虑了战略效应(Strategic effect),但是却忽略了其他参与人也会改变行为。

决斗博弈】案例:

两个参与人决斗,每个阶段两人可以选择攻击(fight)或者退出(quit),同时给出选择,直到一方退出为止。如果对手退出,我方可获得奖励v=1美元;如果双方都选择攻击,那么每个人付出代价-c=0.75美元;如果双方都选择退出,那么每人获利0。

这里有个【沉没成本(sunk cost)】的概念,虽然一次失败(两人都攻击)的损失少于奖励,但是积累起来就远超过收益了,而且输的话更是分文不得。

现实例子:企业为竞争市场而打消耗战(war of attrition)、行贿竞赛(bribery contests)/全薪拍卖(all pay auction)

image-20230121100148839

第二轮这个子博弈的收益如下:

image-20230121100415922

子博弈中的两个纯策略NE:(v, 0) (0, v)

第一轮的收益如下:

image-20230121101453650

延续收益的两个均衡:

image-20230121101609992 image-20230121102257124

此时,每一个均衡中都有一个攻击者和退出者,攻击者总是攻击,退出者总是退出。而这,并不是真实的。

下面,我们研究混合策略下的均衡:

image-20230121110835001 image-20230121110949931

回溯到第一轮:

image-20230121111015887

延续收益都为0,这就是第二阶段混合策略下的NE。此时,SPE[(p *, p *), (p *, p *)],收益期望为0。

将这个分析方式推广到无限博弈,分析结果也是一样的,在混合策略的NE下,延续收益仍然是0。

在消耗战为背景的博弈中,在理性参与人中有一个均衡,更进一步说是一个合理的常识,即每个人都很理性,也知道其他人也是理性的,但却存在这样一个平衡,使人们不仅选择攻击,且一直攻击下去。 (但随时间推移,消耗战持续的可能性会下降。)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值