博弈论学习 | 第六章 Games

最新推荐文章于 2025-01-09 11:46:19 发布

Nosimper

最新推荐文章于 2025-01-09 11:46:19 发布

阅读量5.3k

点赞数 2

分类专栏：博弈论

本文链接：https://blog.csdn.net/qq_43616565/article/details/122934621

版权

博弈论专栏收录该内容

4 篇文章

订阅专栏

Chapter 6 Games

博弈论旨在解决一个人的决定结果不仅取决于他们如何选择，还取决于与他们互动的人所做的选择

1. What is a Game?

Game定义

博弈论关注的是决策者相互互动的情况，每个参与者的收益的不仅取决于自己的决定，还取决于每个人的决定

Exam-Presentation游戏：同学对一门学科小组期末检测选择presentation或exam方法，最终获得小组成员对应成绩。

Game的基本成分：

players：玩家数量
strategy：所有player的决策组合
payoff：每位player基于所有人决策的收益

2. Reasoning about Behavior in a Game

Game基本假设：

每个玩家只关心最大化自己的平均payoff（如果存在无私的player，那么他们的回报应该反映在payoff中）
每个玩家都知道关于游戏结构的一切
每个人做出的决策都是理性的最优策略

最优策略dominant strategy定义

当一个玩家拥有一个比其他选项更好的策略，而不管其他玩家做什么，都会选择该策略。

囚徒困境Prisoner’s Dilemma游戏：囚徒选择Confess坦白或Not-Confess不坦白，被决定最后判罚的年限。

分析：对每一位囚徒来说最优策略都是选择confess坦白，所以最终都会得到(-4,-4)的回报。

3. Best Responses and Dominant Strategies

定义

Best Response：对于其他玩家做出的决策组合，自己作出使自己收益最大决策。
$P_{1}(S, T) \geq P_{1}\left(S^{\prime}, T\right)$
例对于另一玩家做出的T决策，自己采取的S比其他S’决策都能获得相等或更大的收益。

Strict best response：对于另一玩家做出的T决策，自己采取的S比其他S’决策都能获得更大的收益。
$P_{1}(S, T)>P_{1}\left(S^{\prime}, T\right)$

Dominant strategy和Best response的关系

dominant strategy是对其他玩家所有可能的决策都是best response的策略。

strictly dominant strategy ：是对其他玩家所有可能的决策都是strict best response的策略

只有其中一位玩家有Strictly dominant strategy的情况

公司营销游戏：公司1,2选择销售 low-priced或 upscale商品

分析：

公司1的最优策略是Low-Priced，而公司2不存在最优策略。但是，因为存在common knowledge，所以公司2可以认定公司1会做出Low-Priced的决策，所以公司2最终选择出售Upscale商品

common knowledge：即共同认知，为一种强假设，因为我们在评判基础上进一步预测了对方会选择占有策略，从而做出的自己的决策。

4. Nash Equilibrium（纳什均衡）

当双人游戏中的两个玩家都没有严格的主导策略时，试图寻找博弈决策中的平衡状态。

纳什均衡定义

对于策略组（S,T），如果S是对T的best response，且T也是对S的best response，那么说（S,T）达到了Nash Equilibrium纳什均衡。

分析：

纳什均衡可以被认为是信念的均衡。因为对于一种纳什均衡，所有玩家都认为在这种状态下能获得相对高的收益，并且其他玩家也愿意在这种纳什均衡状态下做出决策。如果这种纳什均衡下的策略存在不是某位玩家player A的best response，那么除此之外的玩家就不会以该纳什均衡中玩家player A的策略做出best response，以从反复，就不会存在纳什均衡。
游戏中可能存在多个纳什均衡。

找到纳什均衡的方法

简单地检查所有的策略对，并分析每个策略是否是对彼此的best response
计算每个玩家对其他玩家的每个策略的best response（s)，然后找到具有相互best response的策略。

5. Multiple Equilibria: Coordination Games（协同博弈）

博弈可以有不止一个纳什均衡，很难预测理性玩家在博弈中的实际表现。

协同博弈定义

多个玩家的共同目标是在同一策略上进行合作获得收益。如果不合作，将获得较差收益。

PowerPoint-Keynote游戏（对称版）：两位玩家需要做汇报，需要选择使用PPT还是Keynote为汇报工具，如果汇报工具一样则合作愉快，汇报成功；如果不一样，那最后无法展现汇报内容，导致失败没有获得收益。

PowerPoint-Keynote游戏（Unbalanced Coordination Game版）：

对于这种多个纳什均衡对称的情况，玩家无法做出决定。 Thomas Schelling提出利用游戏以外的规则focal point指引玩家专注于某个纳什均衡。例如在车道会面时规定social conventions都向右偏转，以防止碰撞。下面例子将Keynote-Keynote的payoff增加，则玩家更倾向都选择做出Keynote的决策。

PowerPoint-Keynote游戏（Battle of the Sexes版）：

玩家在获得最高payoff的均衡状态不同，在这种情形下，很难用payoff matrix或social convention来预测游戏中会出现的平衡，但它有助于了解多个玩家之间存在的约定，提示他们如何解决分歧。

Stag Hunt Game:

这与PowerPoint-Keynote游戏（Unbalanced Coordination Game版）非常相似，但是不同在尝试获得高payoff的玩家可能获得惩罚，可能最终获得0 payoff而其他玩家仍有不错payoff。这种游戏的难点在权衡高回报和决策风险的问题。

6. Multiple Equilibria: The Hawk-Dove Game（竞争博弈）

Hawk-Dove Game：多个动物竞争分配食物，可以选择aggressively (the Hawk strategy或passively (the Dove strategy)的决策。

分析：

存在（D,H）和（H,D）两种纳什均衡，在这种情况谁都不愿意采取Dove策略获得低payoff。

Exam-Presentation游戏对比

Exam-Presentation游戏(最优策略版)：存在最优策略（Presentation-Presentation）

Exam-Presentation游戏(协同博弈版)：存在纳什均衡（Presentation-Presentation）和（Exam-Exam），即相同的协同决策可以获得更高回报。

Exam-Presentation游戏(竞争博弈版)：存在纳什均衡（Presentation-Exam）和（Exam-Presentation），即竞争做出Exam策略可能获得更高回报，但是存在风险都获得低回报。

7. Mixed Strategies（混合策略）

博弈可能根本没有纳什均衡。对于这样的博弈，我们将通过扩大策略集（包括随机化的可能性）的方法来预测玩家的行为。如果允许按照概率随机化决策，John·Nash的一个主要结果证明了该均衡总是存在的。

混合策略定义

每个玩家实际上不是直接做出决策S，而是用probability权衡采取行为S的概率，最终以一定概率采取行为。

混合策略payoff

Matching Penniesu游戏：匹配游戏，选择出硬币正面（heads,H）还是反面(tails,T)，如果两个硬币不一样，则player 1获胜，相同则player 2获胜。

zero-sum games:零和游戏，玩家的回报总和为零。Matching Penniesuu游戏则为一种零和游戏。

分析：

假设玩家1以p的概率采取H决策，以1-p的概率采取T；玩家2以q的概率采取H决策，以1-q的概率采取T。

如果玩家1采取纯策略H，那么他的payoff期望为
$(- 1) (q) + (1) (1 - q) = 1 - 2 q$
如果玩家1采取纯策略T，那么他的payoff期望为：
$(1) (q) + (- 1) (1 - q) = 2 q - 1$

混合策略的纳什均衡

在该游戏中，容易分析得到不存在纯策略纳什均衡。

对于玩家1：

在 $\neq 2 q-1$ 情况下，存在无论对方什么决策，都会选择1-2q和2q-1中期望高的那个策略，从而又回到纯策略分析中，对方也会选择对应的best response，这种情况达不到纳什均衡。

在 $1 - 2 q = 2 q - 1$ 情况下策略q=1/2，同理p=1/2。这对策略形成了彼此的best response，这也是混合策略的唯一纳什均衡。

混合策略纳什均衡的理解分析：

加入随机化，使得每个玩家都希望自己的行为不被对方所预测，从而对方不能对症下药，形成一种“自身不同策略但期望收益相同的”的平衡状态。这与前面纯策略的纳什均衡略有不同，前者是一种对策略达成协议的均衡，后者是对策略执行概率达成协议的均衡。如果再次遇到一个玩匹配硬币概率为1/2的玩家，也会达到纳什均衡。

同时具有纯策略均衡和混合策略均衡

博弈可能同时具有纯策略均衡和混合策略均衡。

PowerPoint-Keynote游戏（Unbalanced Coordination Game版）：

纯策略纳什均衡：（PowerPoint，PowerPoint）和（Keynote，Keynote）

混合策略纳什均衡：假设我采取PowerPoint为0 ~ 1的p概率，搭档采取PowerPoint为0 ~ 1的q概率。
$(1) (q) + (0) (1 - q) = (0) (q) + (2) (1 - q)$
因此得q=2/3，同理p=2/3。在p=2/3且q=2/3时，该博弈达到混合策略纳什均衡。混合策略均衡与纯策略和两个均衡不同，这种混合均衡可能会出现错误搭配；但这仍然是一种平衡，因为如果你真的相信你的搭档选择PowerPoint的概率是2/3，keynote的概率是1/3，那么你会对这两个选择漠不关心，无论你选择如何都会得到相同的期望回报。

8. Pareto-Optimality and Social Optimality（帕累托最优和社会最优）

在纳什均衡中，玩家个体都在自我优化获得更高payoff，但是可能对群体不是最好的结果。

帕累托最优定义

每个玩家选择的策略，使得在保证任何一方的利益不受损的情况下，没有任何方法促使至少一个人得到更多的利益。

利帕累托最优的局面是所有人都满意的且对整体有利的方案。在帕累托最优的情形下，如果某些人还想增加自己的利益，就只能损害别人的利益。

社会最优定义

每个玩家选择的策略使得玩家的收益总和最大。

纳什均衡并非在每一场游戏中都与社会最优的目标不一致。

帕累托最优和社会最优的关系

社会最优的结果也必须是帕累托最优的，但帕累托最优的结果不一定是社会最优的。

Exam-Presentation游戏：

纳什均衡：(Exam-Exam)

帕累托最优：（Presentation-Presentation），（Presentation-Exam），（Exam-Presentation）。

其中只有一人选择Presentaion的情况也是帕累托最优，没有其他策略使得保证包损害其他人利益前提下，至少一个人得到更多的利益。想要达到（Presentation-Presentation）的理想状况，则需要损害另一位玩家的payoff。

社会最优：（Presentation-Presentation）。90+90=180的收益达到所有玩家总体收益最大。

9. Advanced Material: Dominated Strategies and Dynamic Games（最优策略和动态博弈）

研究最优策略的作用
研究在没有最优策略的情况下，基于理性的游戏预测方法
研究按照时间顺序发生的游戏博弈

多玩家博弈中的定义

payoff function：P_i，对每一个玩家都有一个收益函数。

outcome（or joint strategy）：(S₁, S₂, . . . , S_n)，所有玩家做出决策后的结果。

best response： S_i对所有其他策略的最佳响应。
$P_{i}\left(S_{1}, S_{2}, \ldots, S_{i-1}, S_{i}, S_{i+1}, \ldots, S_{n}\right) \geq P_{i}\left(S_{1}, S_{2}, \ldots, S_{i-1}, S_{i}^{\prime}, S_{i+1}, \ldots, S_{n}\right)$
Nash equilibrium：(S₁, S₂, . . . , S_n)，如果每个策略都是对所有其他策略的最佳响应，则是纳什均衡。

Dominated Strategies and their Role in Strategic Reasoning（最优策略及其作用）

Iterated Deletion of Dominated Strategies（迭代删除最优策略法）

步骤：

从任何n个玩家的游戏开始，找到所有strictly dominated strategy，然后删除它们
考虑这些被移除策略后的简化博弈，尽管在整个游戏中并没有被严格控制，删除在简化博弈中的strictly dominated strategy。
反复寻找和删除strictly dominated strategy，直到没有找到。

Facility Location Game游戏：公司1可以在A，C，E中选择开设商店，公司2可以在B，D，F中选择开设商店。这些决定将同时执行。一旦这两家商店开张，顾客都会去离他们更近的商店。假设城镇包含相同数量的客户，回报与客户数量成正比。

payoff matrix：

分析：

游戏中都没有最优策略，存在纳什均衡（C，D）。

对于公司1来说，无论对方在哪开设商店，选择在C开设商店得到的收益都比在A出开商店高，所以不会选择A，公司2同理不会选择F。由此问题简化成了：

对于公司1来说，无论对方在哪开设商店，选择在C开设商店得到的收益都比在E出开商店高，所以不会选择E，公司2同理不会选择B。最终简化成更小的博弈。

经过证明可得的结论：删除严格控制后，纳什均衡集即不会改变，简化博弈的任何纳什均衡也是原博弈的纳什均衡。以任何顺序消除strictly dominated strategy都会得到相同的最终结果。

Weakly Dominated Strategies

相比最优策略存在其他策略能够达到相同的收益。
$P_{i}\left(S_{1}, S_{2}, \ldots, S_{i-1}, S_{i}^{\prime}, S_{i+1}, \ldots, S_{n}\right) \geq P_{i}\left(S_{1}, S_{2}, \ldots, S_{i-1}, S_{i}, S_{i+1}, \ldots, S_{n}\right)$
在迭代删除最优策略过程中，删除strictly dominated strategy是可行的，但如果删除Weakly Dominated Strategies可能会破坏纳什均衡。因为纳什均衡并没有考虑到他人行为的不确定性，其他玩家在选择Weakly Dominated Strategies相比最优策略没有任何损害。

Dynamic Games（动态博弈）

之前关注的是所有玩家同时选择他们的策略（表示为Normal Form，下面介绍按照一定顺序发生的游戏博弈（Extensive Form）。

动态博弈定义

一些玩家或一组玩家先决策，其他玩家观察(s)所做出的选择再做出决策，按照预定顺序发生的博弈。

游戏1说明：公司1，2分别选择在A,B两地投资，公司1先决策，公司2随即做出决策。例公司1选择在A投资，公司2也选择A地投资，那么公司1，2分别获得（8,4）的payoff。

用Extensive Form表示（Game Tree）：在Dynamics Game情形下，公司1决策后，公司2做出的决策可能发展成4种结果。

用Normal Form来表示：

分析：

在Normal Game情形下（即同时做出决策），公司2可根据公司1的策略分为4种组合策略，这里虽有相同的收益结果，但是在分析时代表不同的含义。例如（A if A，A if B）表示如果公司1选择A，公司2则选择A；如果公司1选择B，公司2则选择A。
$\text { if } A, A \text { if } B),(A \text { if } A, B \text { if } B),(B \text { if } A, A \text { if } B), \text { and }(B \text { if } A, B \text { if } B)$
简化为：
$\text { and }(B A, B B)$
对公司1来说，无论对方接下来做出什么决策，存在最优策略A比其他策略获得更高收益。所以公司2对此做出best response一定会是B。

The Market Entry Game

游戏说明：公司1可以选择是否选择进入市场，如果公司1选择进入市场，公司2可以选择合作或竞争来获得不同的收益；如果公司1选择提出市场，公司则可以霸占整个市场获得全部收益。

Extensive Form表示：

Normal Form表示：

分析：

发现存在纳什均衡（S,R）和（E,C）。在Normal Form表示中，同时也存在（S,R），(S,C)的弱最优策略，公司2可以选择R或C的决策。在之前提到的迭代删除最优策略方法中，删除弱最忧策略拾不起作用的，但是在Dynamics Game中Extensive Form表示可以消除这种信息不确定性。
获得不同的收益；如果公司1选择提出市场，公司则可以霸占整个市场获得全部收益。

Extensive Form表示：

[外链图片转存中…(img-8LIqLiUw-1644855205079)]

Normal Form表示：

[外链图片转存中…(img-xFBi70pM-1644855205080)]

分析：

发现存在纳什均衡（S,R）和（E,C）。在Normal Form表示中，同时也存在（S,R），(S,C)的弱最优策略，公司2可以选择R或C的决策。在之前提到的迭代删除最优策略方法中，删除弱最忧策略拾不起作用的，但是在Dynamics Game中Extensive Form表示可以消除这种信息不确定性。