Chapter 6 Games
博弈论旨在解决一个人的决定结果不仅取决于他们如何选择,还取决于与他们互动的人所做的选择
1. What is a Game?
Game定义
博弈论关注的是决策者相互互动的情况,每个参与者的收益的不仅取决于自己的决定,还取决于每个人的决定
Exam-Presentation
游戏:同学对一门学科小组期末检测选择presentation或exam方法,最终获得小组成员对应成绩。
Game的基本成分:
- players:玩家数量
- strategy:所有player的决策组合
- payoff:每位player基于所有人决策的收益
2. Reasoning about Behavior in a Game
Game基本假设:
- 每个玩家只关心最大化自己的平均payoff(如果存在无私的player,那么他们的回报应该反映在payoff中)
- 每个玩家都知道关于游戏结构的一切
- 每个人做出的决策都是理性的最优策略
最优策略dominant strategy定义
当一个玩家拥有一个比其他选项更好的策略,而不管其他玩家做什么,都会选择该策略。
囚徒困境Prisoner’s Dilemma
游戏:囚徒选择Confess坦白或Not-Confess不坦白,被决定最后判罚的年限。
分析:对每一位囚徒来说最优策略都是选择confess坦白,所以最终都会得到(-4,-4)的回报。
3. Best Responses and Dominant Strategies
定义
Best Response
:对于其他玩家做出的决策组合,自己作出使自己收益最大决策。
P
1
(
S
,
T
)
≥
P
1
(
S
′
,
T
)
P_{1}(S, T) \geq P_{1}\left(S^{\prime}, T\right)
P1(S,T)≥P1(S′,T)
例对于另一玩家做出的T决策,自己采取的S比其他S’决策都能获得相等或更大的收益。
Strict best response
:对于另一玩家做出的T决策,自己采取的S比其他S’决策都能获得更大的收益。
P
1
(
S
,
T
)
>
P
1
(
S
′
,
T
)
P_{1}(S, T)>P_{1}\left(S^{\prime}, T\right)
P1(S,T)>P1(S′,T)
Dominant strategy和Best response的关系
dominant strategy
是对其他玩家所有可能的决策都是best response
的策略。
strictly dominant strategy
:是对其他玩家所有可能的决策都是strict best response
的策略
只有其中一位玩家有Strictly dominant strategy的情况
公司营销游戏:公司1,2选择销售 low-priced或 upscale商品
分析:
公司1的最优策略是Low-Priced,而公司2不存在最优策略。但是,因为存在common knowledge
,所以公司2可以认定公司1会做出Low-Priced的决策,所以公司2最终选择出售Upscale商品
common knowledge
:即共同认知,为一种强假设,因为我们在评判基础上进一步预测了对方会选择占有策略,从而做出的自己的决策。
4. Nash Equilibrium(纳什均衡)
当双人游戏中的两个玩家都没有严格的主导策略时,试图寻找博弈决策中的平衡状态。
纳什均衡定义
对于策略组(S,T),如果S是对T的best response,且T也是对S的best response,那么说(S,T)达到了Nash Equilibrium纳什均衡。
分析:
-
纳什均衡可以被认为是信念的均衡。因为对于一种纳什均衡,所有玩家都认为在这种状态下能获得相对高的收益,并且其他玩家也愿意在这种纳什均衡状态下做出决策。如果这种纳什均衡下的策略存在不是某位玩家player A的best response,那么除此之外的玩家就不会以该纳什均衡中玩家player A的策略做出best response,以从反复,就不会存在纳什均衡。
-
游戏中可能存在多个纳什均衡。
找到纳什均衡的方法
- 简单地检查所有的策略对,并分析每个策略是否是对彼此的best response
- 计算每个玩家对其他玩家的每个策略的best response(s),然后找到具有相互best response的策略。
5. Multiple Equilibria: Coordination Games(协同博弈)
博弈可以有不止一个纳什均衡,很难预测理性玩家在博弈中的实际表现。
协同博弈定义
多个玩家的共同目标是在同一策略上进行合作获得收益。如果不合作,将获得较差收益。
PowerPoint-Keynote游戏(对称版)
:两位玩家需要做汇报,需要选择使用PPT还是Keynote为汇报工具,如果汇报工具一样则合作愉快,汇报成功;如果不一样,那最后无法展现汇报内容,导致失败没有获得收益。
PowerPoint-Keynote游戏(Unbalanced Coordination Game版)
:
对于这种多个纳什均衡对称的情况,玩家无法做出决定。 Thomas Schelling提出利用游戏以外的规则focal point
指引玩家专注于某个纳什均衡。例如在车道会面时规定social conventions
都向右偏转,以防止碰撞。下面例子将Keynote-Keynote的payoff增加,则玩家更倾向都选择做出Keynote的决策。
PowerPoint-Keynote游戏(Battle of the Sexes版)
:
玩家在获得最高payoff的均衡状态不同,在这种情形下,很难用payoff matrix
或social convention
来预测游戏中会出现的平衡,但它有助于了解多个玩家之间存在的约定,提示他们如何解决分歧。
Stag Hunt Game
:
这与PowerPoint-Keynote游戏(Unbalanced Coordination Game版)
非常相似,但是不同在尝试获得高payoff的玩家可能获得惩罚,可能最终获得0 payoff而其他玩家仍有不错payoff。这种游戏的难点在权衡高回报和决策风险的问题。
6. Multiple Equilibria: The Hawk-Dove Game(竞争博弈)
Hawk-Dove Game
:多个动物竞争分配食物,可以选择aggressively (the Hawk strategy或passively (the Dove strategy)的决策。
分析:
存在(D,H)和(H,D)两种纳什均衡,在这种情况谁都不愿意采取Dove策略获得低payoff。
Exam-Presentation游戏对比
Exam-Presentation游戏(最优策略版)
:存在最优策略(Presentation-Presentation)
Exam-Presentation游戏(协同博弈版)
:存在纳什均衡(Presentation-Presentation)和(Exam-Exam),即相同的协同决策可以获得更高回报。
Exam-Presentation游戏(竞争博弈版)
:存在纳什均衡(Presentation-Exam)和(Exam-Presentation),即竞争做出Exam策略可能获得更高回报,但是存在风险都获得低回报。
7. Mixed Strategies(混合策略)
博弈可能根本没有纳什均衡。对于这样的博弈,我们将通过扩大策略集(包括随机化的可能性)的方法来预测玩家的行为。如果允许按照概率随机化决策,John·Nash的一个主要结果证明了该均衡总是存在的。
混合策略定义
每个玩家实际上不是直接做出决策S,而是用probability
权衡采取行为S的概率,最终以一定概率采取行为。
混合策略payoff
Matching Penniesu游戏
:匹配游戏,选择出硬币正面(heads,H)还是反面(tails,T),如果两个硬币不一样,则player 1获胜,相同则player 2获胜。
zero-sum games
:零和游戏,玩家的回报总和为零。Matching Penniesuu游戏则为一种零和游戏。
分析:
假设玩家1以p的概率采取H决策,以1-p的概率采取T;玩家2以q的概率采取H决策,以1-q的概率采取T。
如果玩家1采取纯策略H,那么他的payoff期望为
(
−
1
)
(
q
)
+
(
1
)
(
1
−
q
)
=
1
−
2
q
(-1)(q)+(1)(1-q)=1-2 q
(−1)(q)+(1)(1−q)=1−2q
如果玩家1采取纯策略T,那么他的payoff期望为:
(
1
)
(
q
)
+
(
−
1
)
(
1
−
q
)
=
2
q
−
1
(1)(q)+(-1)(1-q)=2 q-1
(1)(q)+(−1)(1−q)=2q−1
混合策略的纳什均衡
在该游戏中,容易分析得到不存在纯策略纳什均衡。
对于玩家1:
在 1 − 2 q ≠ 2 q − 1 1-2 q \neq 2 q-1 1−2q=2q−1情况下,存在无论对方什么决策,都会选择1-2q和2q-1中期望高的那个策略,从而又回到纯策略分析中,对方也会选择对应的best response,这种情况达不到纳什均衡。
在 1 − 2 q = 2 q − 1 1-2 q =2 q-1 1−2q=2q−1情况下策略q=1/2,同理p=1/2。这对策略形成了彼此的best response,这也是混合策略的唯一纳什均衡。
混合策略纳什均衡的理解分析:
加入随机化,使得每个玩家都希望自己的行为不被对方所预测,从而对方不能对症下药,形成一种“自身不同策略但期望收益相同的”的平衡状态。这与前面纯策略的纳什均衡略有不同,前者是一种对策略达成协议的均衡,后者是对策略执行概率达成协议的均衡。如果再次遇到一个玩匹配硬币概率为1/2的玩家,也会达到纳什均衡。
同时具有纯策略均衡和混合策略均衡
博弈可能同时具有纯策略均衡和混合策略均衡。
PowerPoint-Keynote游戏(Unbalanced Coordination Game版)
:
纯策略纳什均衡:(PowerPoint,PowerPoint)和(Keynote,Keynote)
混合策略纳什均衡:假设我采取PowerPoint为0 ~ 1的p概率,搭档采取PowerPoint为0 ~ 1的q概率。
(
1
)
(
q
)
+
(
0
)
(
1
−
q
)
=
(
0
)
(
q
)
+
(
2
)
(
1
−
q
)
(1)(q)+(0)(1-q)=(0)(q)+(2)(1-q)
(1)(q)+(0)(1−q)=(0)(q)+(2)(1−q)
因此得q=2/3,同理p=2/3。在p=2/3且q=2/3时,该博弈达到混合策略纳什均衡。混合策略均衡与纯策略和两个均衡不同,这种混合均衡可能会出现错误搭配;但这仍然是一种平衡,因为如果你真的相信你的搭档选择PowerPoint的概率是2/3,keynote的概率是1/3,那么你会对这两个选择漠不关心,无论你选择如何都会得到相同的期望回报。
8. Pareto-Optimality and Social Optimality(帕累托最优和社会最优)
在纳什均衡中,玩家个体都在自我优化获得更高payoff,但是可能对群体不是最好的结果。
帕累托最优定义
每个玩家选择的策略,使得在保证任何一方的利益不受损的情况下,没有任何方法促使至少一个人得到更多的利益。
利帕累托最优的局面是所有人都满意的且对整体有利的方案。在帕累托最优的情形下,如果某些人还想增加自己的利益,就只能损害别人的利益。
社会最优定义
每个玩家选择的策略使得玩家的收益总和最大。
纳什均衡并非在每一场游戏中都与社会最优的目标不一致。
帕累托最优和社会最优的关系
社会最优的结果也必须是帕累托最优的,但帕累托最优的结果不一定是社会最优的。
Exam-Presentation
游戏:
纳什均衡:(Exam-Exam)
帕累托最优:(Presentation-Presentation),(Presentation-Exam),(Exam-Presentation)。
其中只有一人选择Presentaion的情况也是帕累托最优,没有其他策略使得保证包损害其他人利益前提下,至少一个人得到更多的利益。想要达到(Presentation-Presentation)的理想状况,则需要损害另一位玩家的payoff。
社会最优:(Presentation-Presentation)。90+90=180的收益达到所有玩家总体收益最大。
9. Advanced Material: Dominated Strategies and Dynamic Games(最优策略和动态博弈)
- 研究最优策略的作用
- 研究在没有最优策略的情况下,基于理性的游戏预测方法
- 研究按照时间顺序发生的游戏博弈
多玩家博弈中的定义
payoff function
:Pi,对每一个玩家都有一个收益函数。
outcome(or joint strategy)
:(S1, S2, . . . , Sn),所有玩家做出决策后的结果。
best response
: Si对所有其他策略的最佳响应。
P
i
(
S
1
,
S
2
,
…
,
S
i
−
1
,
S
i
,
S
i
+
1
,
…
,
S
n
)
≥
P
i
(
S
1
,
S
2
,
…
,
S
i
−
1
,
S
i
′
,
S
i
+
1
,
…
,
S
n
)
P_{i}\left(S_{1}, S_{2}, \ldots, S_{i-1}, S_{i}, S_{i+1}, \ldots, S_{n}\right) \geq P_{i}\left(S_{1}, S_{2}, \ldots, S_{i-1}, S_{i}^{\prime}, S_{i+1}, \ldots, S_{n}\right)
Pi(S1,S2,…,Si−1,Si,Si+1,…,Sn)≥Pi(S1,S2,…,Si−1,Si′,Si+1,…,Sn)
Nash equilibrium
:(S1, S2, . . . , Sn),如果每个策略都是对所有其他策略的最佳响应,则是纳什均衡。
Dominated Strategies and their Role in Strategic Reasoning(最优策略及其作用)
Iterated Deletion of Dominated Strategies(迭代删除最优策略法)
步骤:
- 从任何n个玩家的游戏开始,找到所有strictly dominated strategy,然后删除它们
- 考虑这些被移除策略后的简化博弈,尽管在整个游戏中并没有被严格控制,删除在简化博弈中的strictly dominated strategy。
- 反复寻找和删除strictly dominated strategy,直到没有找到。
Facility Location Game游戏
:公司1可以在A,C,E中选择开设商店,公司2可以在B,D,F中选择开设商店。这些决定将同时执行。一旦这两家商店开张,顾客都会去离他们更近的商店。假设城镇包含相同数量的客户,回报与客户数量成正比。
payoff matrix:
分析:
游戏中都没有最优策略,存在纳什均衡(C,D)。
对于公司1来说,无论对方在哪开设商店,选择在C开设商店得到的收益都比在A出开商店高,所以不会选择A,公司2同理不会选择F。由此问题简化成了:
对于公司1来说,无论对方在哪开设商店,选择在C开设商店得到的收益都比在E出开商店高,所以不会选择E,公司2同理不会选择B。最终简化成更小的博弈。
经过证明可得的结论:删除严格控制后,纳什均衡集即不会改变,简化博弈的任何纳什均衡也是原博弈的纳什均衡。以任何顺序消除strictly dominated strategy都会得到相同的最终结果。
Weakly Dominated Strategies
相比最优策略存在其他策略能够达到相同的收益。
P
i
(
S
1
,
S
2
,
…
,
S
i
−
1
,
S
i
′
,
S
i
+
1
,
…
,
S
n
)
≥
P
i
(
S
1
,
S
2
,
…
,
S
i
−
1
,
S
i
,
S
i
+
1
,
…
,
S
n
)
P_{i}\left(S_{1}, S_{2}, \ldots, S_{i-1}, S_{i}^{\prime}, S_{i+1}, \ldots, S_{n}\right) \geq P_{i}\left(S_{1}, S_{2}, \ldots, S_{i-1}, S_{i}, S_{i+1}, \ldots, S_{n}\right)
Pi(S1,S2,…,Si−1,Si′,Si+1,…,Sn)≥Pi(S1,S2,…,Si−1,Si,Si+1,…,Sn)
在迭代删除最优策略过程中,删除strictly dominated strategy是可行的,但如果删除Weakly Dominated Strategies可能会破坏纳什均衡。因为纳什均衡并没有考虑到他人行为的不确定性,其他玩家在选择Weakly Dominated Strategies相比最优策略没有任何损害。
Dynamic Games(动态博弈)
之前关注的是所有玩家同时选择他们的策略(表示为Normal Form,下面介绍按照一定顺序发生的游戏博弈(Extensive Form)。
动态博弈定义
一些玩家或一组玩家先决策,其他玩家观察(s)所做出的选择再做出决策,按照预定顺序发生的博弈。
游戏1说明:公司1,2分别选择在A,B两地投资,公司1先决策,公司2随即做出决策。例公司1选择在A投资,公司2也选择A地投资,那么公司1,2分别获得(8,4)的payoff。
用Extensive Form表示(Game Tree):在Dynamics Game情形下,公司1决策后,公司2做出的决策可能发展成4种结果。
用Normal Form来表示:
分析:
在Normal Game情形下(即同时做出决策),公司2可根据公司1的策略分为4种组合策略,这里虽有相同的收益结果,但是在分析时代表不同的含义。例如(A if A,A if B)表示如果公司1选择A,公司2则选择A;如果公司1选择B,公司2则选择A。
(
A
if
A
,
A
if
B
)
,
(
A
if
A
,
B
if
B
)
,
(
B
if
A
,
A
if
B
)
,
and
(
B
if
A
,
B
if
B
)
(A \text { if } A, A \text { if } B),(A \text { if } A, B \text { if } B),(B \text { if } A, A \text { if } B), \text { and }(B \text { if } A, B \text { if } B)
(A if A,A if B),(A if A,B if B),(B if A,A if B), and (B if A,B if B)
简化为:
(
A
A
,
A
B
)
,
(
A
A
,
B
B
)
,
(
B
A
,
A
B
)
,
and
(
B
A
,
B
B
)
(A A, A B),(A A, B B),(B A, A B), \text { and }(B A, B B)
(AA,AB),(AA,BB),(BA,AB), and (BA,BB)
对公司1来说,无论对方接下来做出什么决策,存在最优策略A比其他策略获得更高收益。所以公司2对此做出best response一定会是B。
The Market Entry Game
游戏说明:公司1可以选择是否选择进入市场,如果公司1选择进入市场,公司2可以选择合作或竞争来获得不同的收益;如果公司1选择提出市场,公司则可以霸占整个市场获得全部收益。
Extensive Form表示:
Normal Form表示:
分析:
发现存在纳什均衡(S,R)和(E,C)。在Normal Form表示中,同时也存在(S,R),(S,C)的弱最优策略,公司2可以选择R或C的决策。在之前提到的迭代删除最优策略方法中,删除弱最忧策略拾不起作用的,但是在Dynamics Game中Extensive Form表示可以消除这种信息不确定性。
获得不同的收益;如果公司1选择提出市场,公司则可以霸占整个市场获得全部收益。
Extensive Form表示:
[外链图片转存中…(img-8LIqLiUw-1644855205079)]
Normal Form表示:
[外链图片转存中…(img-xFBi70pM-1644855205080)]
分析:
发现存在纳什均衡(S,R)和(E,C)。在Normal Form表示中,同时也存在(S,R),(S,C)的弱最优策略,公司2可以选择R或C的决策。在之前提到的迭代删除最优策略方法中,删除弱最忧策略拾不起作用的,但是在Dynamics Game中Extensive Form表示可以消除这种信息不确定性。