博弈论学习 | 第六章 Games

Chapter 6 Games

博弈论旨在解决一个人的决定结果不仅取决于他们如何选择,还取决于与他们互动的人所做的选择

1. What is a Game?

Game定义

博弈论关注的是决策者相互互动的情况,每个参与者的收益的不仅取决于自己的决定,还取决于每个人的决定

Exam-Presentation游戏:同学对一门学科小组期末检测选择presentation或exam方法,最终获得小组成员对应成绩。

image-20220210163110494

Game的基本成分:

  1. players:玩家数量
  2. strategy:所有player的决策组合
  3. payoff:每位player基于所有人决策的收益

2. Reasoning about Behavior in a Game

Game基本假设:

  1. 每个玩家只关心最大化自己的平均payoff(如果存在无私的player,那么他们的回报应该反映在payoff中)
  2. 每个玩家都知道关于游戏结构的一切
  3. 每个人做出的决策都是理性的最优策略

最优策略dominant strategy定义

当一个玩家拥有一个比其他选项更好的策略,而不管其他玩家做什么,都会选择该策略。

囚徒困境Prisoner’s Dilemma游戏:囚徒选择Confess坦白或Not-Confess不坦白,被决定最后判罚的年限。

image-20220210164248201

分析:对每一位囚徒来说最优策略都是选择confess坦白,所以最终都会得到(-4,-4)的回报。

3. Best Responses and Dominant Strategies

定义

Best Response:对于其他玩家做出的决策组合,自己作出使自己收益最大决策。
P 1 ( S , T ) ≥ P 1 ( S ′ , T ) P_{1}(S, T) \geq P_{1}\left(S^{\prime}, T\right) P1(S,T)P1(S,T)
例对于另一玩家做出的T决策,自己采取的S比其他S’决策都能获得相等或更大的收益。

Strict best response:对于另一玩家做出的T决策,自己采取的S比其他S’决策都能获得更大的收益。
P 1 ( S , T ) > P 1 ( S ′ , T ) P_{1}(S, T)>P_{1}\left(S^{\prime}, T\right) P1(S,T)>P1(S,T)

Dominant strategy和Best response的关系

dominant strategy是对其他玩家所有可能的决策都是best response的策略。

strictly dominant strategy :是对其他玩家所有可能的决策都是strict best response的策略

只有其中一位玩家有Strictly dominant strategy的情况

公司营销游戏:公司1,2选择销售 low-priced或 upscale商品

image-20220210170015861

分析

公司1的最优策略是Low-Priced,而公司2不存在最优策略。但是,因为存在common knowledge,所以公司2可以认定公司1会做出Low-Priced的决策,所以公司2最终选择出售Upscale商品

common knowledge:即共同认知,为一种强假设,因为我们在评判基础上进一步预测了对方会选择占有策略,从而做出的自己的决策。

4. Nash Equilibrium(纳什均衡)

当双人游戏中的两个玩家都没有严格的主导策略时,试图寻找博弈决策中的平衡状态。

纳什均衡定义

对于策略组(S,T),如果S是对T的best response,且T也是对S的best response,那么说(S,T)达到了Nash Equilibrium纳什均衡。

分析

  1. 纳什均衡可以被认为是信念的均衡。因为对于一种纳什均衡,所有玩家都认为在这种状态下能获得相对高的收益,并且其他玩家也愿意在这种纳什均衡状态下做出决策。如果这种纳什均衡下的策略存在不是某位玩家player A的best response,那么除此之外的玩家就不会以该纳什均衡中玩家player A的策略做出best response,以从反复,就不会存在纳什均衡。

  2. 游戏中可能存在多个纳什均衡。

找到纳什均衡的方法

  1. 简单地检查所有的策略对,并分析每个策略是否是对彼此的best response
  2. 计算每个玩家对其他玩家的每个策略的best response(s),然后找到具有相互best response的策略。

5. Multiple Equilibria: Coordination Games(协同博弈)

博弈可以有不止一个纳什均衡,很难预测理性玩家在博弈中的实际表现。

协同博弈定义

多个玩家的共同目标是在同一策略上进行合作获得收益。如果不合作,将获得较差收益。

PowerPoint-Keynote游戏(对称版):两位玩家需要做汇报,需要选择使用PPT还是Keynote为汇报工具,如果汇报工具一样则合作愉快,汇报成功;如果不一样,那最后无法展现汇报内容,导致失败没有获得收益。

image-20220212104031180

PowerPoint-Keynote游戏(Unbalanced Coordination Game版)

对于这种多个纳什均衡对称的情况,玩家无法做出决定。 Thomas Schelling提出利用游戏以外的规则focal point指引玩家专注于某个纳什均衡。例如在车道会面时规定social conventions都向右偏转,以防止碰撞。下面例子将Keynote-Keynote的payoff增加,则玩家更倾向都选择做出Keynote的决策。

image-20220212105222349

PowerPoint-Keynote游戏(Battle of the Sexes版)

玩家在获得最高payoff的均衡状态不同,在这种情形下,很难用payoff matrixsocial convention来预测游戏中会出现的平衡,但它有助于了解多个玩家之间存在的约定,提示他们如何解决分歧。

image-20220212105841778

Stag Hunt Game:

这与PowerPoint-Keynote游戏(Unbalanced Coordination Game版)非常相似,但是不同在尝试获得高payoff的玩家可能获得惩罚,可能最终获得0 payoff而其他玩家仍有不错payoff。这种游戏的难点在权衡高回报决策风险的问题。

image-20220212110613249

6. Multiple Equilibria: The Hawk-Dove Game(竞争博弈)

Hawk-Dove Game:多个动物竞争分配食物,可以选择aggressively (the Hawk strategy或passively (the Dove strategy)的决策。

image-20220212111557558

分析

存在(D,H)和(H,D)两种纳什均衡,在这种情况谁都不愿意采取Dove策略获得低payoff。

Exam-Presentation游戏对比

Exam-Presentation游戏(最优策略版):存在最优策略(Presentation-Presentation)

image-20220212112411102

Exam-Presentation游戏(协同博弈版):存在纳什均衡(Presentation-Presentation)和(Exam-Exam),即相同的协同决策可以获得更高回报。

image-20220212112026406

Exam-Presentation游戏(竞争博弈版):存在纳什均衡(Presentation-Exam)和(Exam-Presentation),即竞争做出Exam策略可能获得更高回报,但是存在风险都获得低回报。

image-20220212112224540

7. Mixed Strategies(混合策略)

博弈可能根本没有纳什均衡。对于这样的博弈,我们将通过扩大策略集(包括随机化的可能性)的方法来预测玩家的行为。如果允许按照概率随机化决策,John·Nash的一个主要结果证明了该均衡总是存在的。

混合策略定义

每个玩家实际上不是直接做出决策S,而是用probability权衡采取行为S的概率,最终以一定概率采取行为。

混合策略payoff

Matching Penniesu游戏:匹配游戏,选择出硬币正面(heads,H)还是反面(tails,T),如果两个硬币不一样,则player 1获胜,相同则player 2获胜。

image-20220212113657634

zero-sum games:零和游戏,玩家的回报总和为零。Matching Penniesuu游戏则为一种零和游戏。

分析:

假设玩家1以p的概率采取H决策,以1-p的概率采取T;玩家2以q的概率采取H决策,以1-q的概率采取T。

如果玩家1采取纯策略H,那么他的payoff期望为
( − 1 ) ( q ) + ( 1 ) ( 1 − q ) = 1 − 2 q (-1)(q)+(1)(1-q)=1-2 q (1)(q)+(1)(1q)=12q
如果玩家1采取纯策略T,那么他的payoff期望为:
( 1 ) ( q ) + ( − 1 ) ( 1 − q ) = 2 q − 1 (1)(q)+(-1)(1-q)=2 q-1 (1)(q)+(1)(1q)=2q1

混合策略的纳什均衡

在该游戏中,容易分析得到不存在纯策略纳什均衡。

对于玩家1:

1 − 2 q ≠ 2 q − 1 1-2 q \neq 2 q-1 12q=2q1情况下,存在无论对方什么决策,都会选择1-2q和2q-1中期望高的那个策略,从而又回到纯策略分析中,对方也会选择对应的best response,这种情况达不到纳什均衡。

1 − 2 q = 2 q − 1 1-2 q =2 q-1 12q=2q1情况下策略q=1/2,同理p=1/2。这对策略形成了彼此的best response,这也是混合策略的唯一纳什均衡。

混合策略纳什均衡的理解分析:

加入随机化,使得每个玩家都希望自己的行为不被对方所预测,从而对方不能对症下药,形成一种“自身不同策略但期望收益相同的”的平衡状态。这与前面纯策略的纳什均衡略有不同,前者是一种对策略达成协议的均衡,后者是对策略执行概率达成协议的均衡。如果再次遇到一个玩匹配硬币概率为1/2的玩家,也会达到纳什均衡。

同时具有纯策略均衡和混合策略均衡

博弈可能同时具有纯策略均衡和混合策略均衡。

PowerPoint-Keynote游戏(Unbalanced Coordination Game版)

image-20220212191112886

纯策略纳什均衡:(PowerPoint,PowerPoint)和(Keynote,Keynote)

混合策略纳什均衡:假设我采取PowerPoint为0 ~ 1的p概率,搭档采取PowerPoint为0 ~ 1的q概率。
( 1 ) ( q ) + ( 0 ) ( 1 − q ) = ( 0 ) ( q ) + ( 2 ) ( 1 − q ) (1)(q)+(0)(1-q)=(0)(q)+(2)(1-q) (1)(q)+(0)(1q)=(0)(q)+(2)(1q)
因此得q=2/3,同理p=2/3。在p=2/3且q=2/3时,该博弈达到混合策略纳什均衡。混合策略均衡与纯策略和两个均衡不同,这种混合均衡可能会出现错误搭配;但这仍然是一种平衡,因为如果你真的相信你的搭档选择PowerPoint的概率是2/3,keynote的概率是1/3,那么你会对这两个选择漠不关心,无论你选择如何都会得到相同的期望回报。

8. Pareto-Optimality and Social Optimality(帕累托最优和社会最优)

在纳什均衡中,玩家个体都在自我优化获得更高payoff,但是可能对群体不是最好的结果。

帕累托最优定义

每个玩家选择的策略,使得在保证任何一方的利益不受损的情况下,没有任何方法促使至少一个人得到更多的利益。

利帕累托最优的局面是所有人都满意的且对整体有利的方案。在帕累托最优的情形下,如果某些人还想增加自己的利益,就只能损害别人的利益。

社会最优定义

每个玩家选择的策略使得玩家的收益总和最大。

纳什均衡并非在每一场游戏中都与社会最优的目标不一致。

帕累托最优和社会最优的关系

社会最优的结果也必须是帕累托最优的,但帕累托最优的结果不一定是社会最优的。

Exam-Presentation游戏

image-20220212201607920

纳什均衡:(Exam-Exam)

帕累托最优:(Presentation-Presentation),(Presentation-Exam),(Exam-Presentation)。

其中只有一人选择Presentaion的情况也是帕累托最优,没有其他策略使得保证包损害其他人利益前提下,至少一个人得到更多的利益。想要达到(Presentation-Presentation)的理想状况,则需要损害另一位玩家的payoff。

社会最优:(Presentation-Presentation)。90+90=180的收益达到所有玩家总体收益最大。

9. Advanced Material: Dominated Strategies and Dynamic Games(最优策略和动态博弈)

  1. 研究最优策略的作用
  2. 研究在没有最优策略的情况下,基于理性的游戏预测方法
  3. 研究按照时间顺序发生的游戏博弈

多玩家博弈中的定义

payoff function:Pi,对每一个玩家都有一个收益函数。

outcome(or joint strategy):(S1, S2, . . . , Sn),所有玩家做出决策后的结果。

best response: Si对所有其他策略的最佳响应。
P i ( S 1 , S 2 , … , S i − 1 , S i , S i + 1 , … , S n ) ≥ P i ( S 1 , S 2 , … , S i − 1 , S i ′ , S i + 1 , … , S n ) P_{i}\left(S_{1}, S_{2}, \ldots, S_{i-1}, S_{i}, S_{i+1}, \ldots, S_{n}\right) \geq P_{i}\left(S_{1}, S_{2}, \ldots, S_{i-1}, S_{i}^{\prime}, S_{i+1}, \ldots, S_{n}\right) Pi(S1,S2,,Si1,Si,Si+1,,Sn)Pi(S1,S2,,Si1,Si,Si+1,,Sn)
Nash equilibrium:(S1, S2, . . . , Sn),如果每个策略都是对所有其他策略的最佳响应,则是纳什均衡。

Dominated Strategies and their Role in Strategic Reasoning(最优策略及其作用)

Iterated Deletion of Dominated Strategies(迭代删除最优策略法)

步骤

  1. 从任何n个玩家的游戏开始,找到所有strictly dominated strategy,然后删除它们
  2. 考虑这些被移除策略后的简化博弈,尽管在整个游戏中并没有被严格控制,删除在简化博弈中的strictly dominated strategy。
  3. 反复寻找和删除strictly dominated strategy,直到没有找到。

Facility Location Game游戏:公司1可以在A,C,E中选择开设商店,公司2可以在B,D,F中选择开设商店。这些决定将同时执行。一旦这两家商店开张,顾客都会去离他们更近的商店。假设城镇包含相同数量的客户,回报与客户数量成正比。

image-20220212210928504

payoff matrix

image-20220212210939713

分析

游戏中都没有最优策略,存在纳什均衡(C,D)。

对于公司1来说,无论对方在哪开设商店,选择在C开设商店得到的收益都比在A出开商店高,所以不会选择A,公司2同理不会选择F。由此问题简化成了:

image-20220213111856477

对于公司1来说,无论对方在哪开设商店,选择在C开设商店得到的收益都比在E出开商店高,所以不会选择E,公司2同理不会选择B。最终简化成更小的博弈。

image-20220213112041743

经过证明可得的结论:删除严格控制后,纳什均衡集即不会改变,简化博弈的任何纳什均衡也是原博弈的纳什均衡。以任何顺序消除strictly dominated strategy都会得到相同的最终结果。

Weakly Dominated Strategies

相比最优策略存在其他策略能够达到相同的收益。
P i ( S 1 , S 2 , … , S i − 1 , S i ′ , S i + 1 , … , S n ) ≥ P i ( S 1 , S 2 , … , S i − 1 , S i , S i + 1 , … , S n ) P_{i}\left(S_{1}, S_{2}, \ldots, S_{i-1}, S_{i}^{\prime}, S_{i+1}, \ldots, S_{n}\right) \geq P_{i}\left(S_{1}, S_{2}, \ldots, S_{i-1}, S_{i}, S_{i+1}, \ldots, S_{n}\right) Pi(S1,S2,,Si1,Si,Si+1,,Sn)Pi(S1,S2,,Si1,Si,Si+1,,Sn)
在迭代删除最优策略过程中,删除strictly dominated strategy是可行的,但如果删除Weakly Dominated Strategies可能会破坏纳什均衡。因为纳什均衡并没有考虑到他人行为的不确定性,其他玩家在选择Weakly Dominated Strategies相比最优策略没有任何损害。

Dynamic Games(动态博弈)

之前关注的是所有玩家同时选择他们的策略(表示为Normal Form,下面介绍按照一定顺序发生的游戏博弈(Extensive Form)。

动态博弈定义

一些玩家或一组玩家先决策,其他玩家观察(s)所做出的选择再做出决策,按照预定顺序发生的博弈。

游戏1说明:公司1,2分别选择在A,B两地投资,公司1先决策,公司2随即做出决策。例公司1选择在A投资,公司2也选择A地投资,那么公司1,2分别获得(8,4)的payoff。

用Extensive Form表示(Game Tree):在Dynamics Game情形下,公司1决策后,公司2做出的决策可能发展成4种结果。

image-20220213143908377

用Normal Form来表示

image-20220213145422796

分析

在Normal Game情形下(即同时做出决策),公司2可根据公司1的策略分为4种组合策略,这里虽有相同的收益结果,但是在分析时代表不同的含义。例如(A if A,A if B)表示如果公司1选择A,公司2则选择A;如果公司1选择B,公司2则选择A。
( A  if  A , A  if  B ) , ( A  if  A , B  if  B ) , ( B  if  A , A  if  B ) ,  and  ( B  if  A , B  if  B ) (A \text { if } A, A \text { if } B),(A \text { if } A, B \text { if } B),(B \text { if } A, A \text { if } B), \text { and }(B \text { if } A, B \text { if } B) (A if A,A if B),(A if A,B if B),(B if A,A if B), and (B if A,B if B)
简化为:
( A A , A B ) , ( A A , B B ) , ( B A , A B ) ,  and  ( B A , B B ) (A A, A B),(A A, B B),(B A, A B), \text { and }(B A, B B) (AA,AB),(AA,BB),(BA,AB), and (BA,BB)
对公司1来说,无论对方接下来做出什么决策,存在最优策略A比其他策略获得更高收益。所以公司2对此做出best response一定会是B。

The Market Entry Game

游戏说明:公司1可以选择是否选择进入市场,如果公司1选择进入市场,公司2可以选择合作或竞争来获得不同的收益;如果公司1选择提出市场,公司则可以霸占整个市场获得全部收益。

Extensive Form表示

image-20220213150427435

Normal Form表示

image-20220213150616438

分析

发现存在纳什均衡(S,R)和(E,C)。在Normal Form表示中,同时也存在(S,R),(S,C)的弱最优策略,公司2可以选择R或C的决策。在之前提到的迭代删除最优策略方法中,删除弱最忧策略拾不起作用的,但是在Dynamics Game中Extensive Form表示可以消除这种信息不确定性。
获得不同的收益;如果公司1选择提出市场,公司则可以霸占整个市场获得全部收益。

Extensive Form表示

[外链图片转存中…(img-8LIqLiUw-1644855205079)]

Normal Form表示

[外链图片转存中…(img-xFBi70pM-1644855205080)]

分析

发现存在纳什均衡(S,R)和(E,C)。在Normal Form表示中,同时也存在(S,R),(S,C)的弱最优策略,公司2可以选择R或C的决策。在之前提到的迭代删除最优策略方法中,删除弱最忧策略拾不起作用的,但是在Dynamics Game中Extensive Form表示可以消除这种信息不确定性。

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
博弈论中,有一种决策称为Best Response,通俗的意思就是选择一种策略使得团体利益最大化。C语言学习成绩的评定方式分为两种,一种是自由刷题模式(compete),没有固定标准,刷题越多者排名越靠前,其期末分数越高;另一种是规定每个人必须做够多少道题(standard),达到要求就能取得相应分数。 假设一个班级中的学生分为A、B两类,A类同学学习热情很高,乐于做题,采用compete模式可以获得成就感并且在期末拿到高分,compete模式可以让他们有10分的收益;采用standard模式他们也可以在期末拿到高分,但不能满足他们的求知欲,standard模式可以让他们有8分的收益。B类同学仅仅希望期末拿高分,如果采用compete模式,他们竞争不过A类同学,期末成绩不理想,因此compete模式能给他们6分的收益;如果采用standard模式,他们可以完成规定任务并拿到高分,因此standard模式可以让他们有10分的收益。 编程输入A类和B类同学分别占班级总人数的百分比,分别计算并输出采用compete和standard两种刷题模式下的全班总收益,并输出这个班级在这场博弈中的Best Response是哪种模式。 【注】程序中使用的数据类型为float 程序运行结果示例1: Input percent of A and B:0.2 0.8↙ compete = 6.8000 standard = 9.6000 The Best Response is standard! 程序运行结果示例2: Input percent of A and B:0.8 0.2↙ compete = 9.2000 standard = 8.4000 The Best Response is compete! 程序运行结果示例3: Input percent of A and B:0.5 0.5↙ compete = 8.0000 standard = 9.0000 The Best Response is standard! 输入提示信息:"Input percent of A and B:" 输入格式:"%f%f" 输出格式:"compete = %.4f\nstandard = %.4f\n" 输出提示信息:"The Best Response is compete!" 输出提示信息:"The Best Response is standard!"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Nosimper

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值