模型纳什均衡

图王大胜

已于 2024-10-21 14:44:45 修改

阅读量2.6k

点赞数 1

分类专栏：思维模型文章标签：人工智能管理经济博弈机器学习

于 2023-10-29 23:29:00 首次发布

本文链接：https://blog.csdn.net/vviccc/article/details/134109827

版权

思维模型专栏收录该内容

281 篇文章

订阅专栏

系列文章分享模型，了解更多👉 模型_思维模型目录。纳什均衡解释了囚徒困境、智猪博弈、内卷、美苏的军备竞赛等博弈问题。

1 纳什均衡的应用

1.1 经典的囚徒困境

@1 背景

囚徒困境是一个经典的博弈论问题，主要描述了两个被捕的囚徒在面对警方审讯时的策略选择。

有一天，两个小偷 A 和 B 一起行窃，结果被警察抓住了。警察将他们分别关押在不同的房间里，并告诉他们，如果他们都坦白罪行，每人将被判处 3 年监禁；如果他们都不坦白，每人将被判处 1 年监禁；如果一个坦白一个不坦白，坦白的人将被释放，不坦白的人将被判处 5 年监禁。

@2 策略选择

在这种情况下，A 和 B 都面临着一个艰难的选择。他们可以选择坦白或不坦白，但是无论他们做出什么选择，他们都必须考虑到对方的选择。

如果 A 选择坦白，那么他将被释放，而 B 将被判处 5 年监禁。如果 A 选择不坦白，那么他将被判处 1 年监禁，而 B 将被判处 3 年监禁。同样，如果 B 选择坦白，那么他将被释放，而 A 将被判处 5 年监禁。如果 B 选择不坦白，那么他将被判处 1 年监禁，而 A 将被判处 3 年监禁。

@3 纳什均衡

在这个博弈中，存在一个纳什均衡，即两个参与者都选择坦白。这是因为无论对方选择什么，坦白都是对自己最有利的选择。

虽然两个参与者都选择坦白并不是最优的结果，因为他们都将被判处 3 年监禁，但是在这种情况下，他们都没有动机去改变自己的策略，因为任何一个参与者改变自己的策略都会导致自己的收益减少。

总之，囚徒困境描述了两个被捕的囚徒在面对警方审讯时的策略选择，反映了个人理性与集体理性之间的矛盾。在这个博弈中，存在一个纳什均衡，即两个参与者都选择坦白，虽然这并不是最优的结果，但是在这种情况下，他们都没有动机去改变自己的策略。

1.2 智猪博弈

@1 背景

猪圈里有两头猪，一头大猪，一头小猪。猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。

@2 策略选择

小猪会选择“搭便车”策略，舒舒服服地等在食槽边；而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。

@3 纳什均衡

在这个博弈中，小猪的最佳策略是等待，而大猪的最佳策略是去踩踏板。这个博弈的纳什均衡是大猪去踩踏板，小猪等待，然后大猪和小猪分别获得一半的食物。这个均衡是稳定的，因为任何一方单独改变策略都不会获得更好的结果。

1.3 性别之战

@1 背景

性别之战是纳什均衡在经济学中的一个经典应用，它描述了一个男女之间关于看电影还是看足球比赛的冲突。

一对男女朋友周末想一起出去玩，但是他们对活动的偏好不同。男生喜欢看足球比赛，而女生喜欢看电影。如果他们各自坚持自己的偏好，那么他们可能会发生争吵，最终可能导致不愉快的结果。但是，如果他们能够达成一个妥协，选择一个双方都可以接受的活动，那么他们就可以避免争吵，达成一个纳什均衡。

例如，他们可以选择去看一场电影，然后再去看一场足球比赛，这样他们就可以满足彼此的需求，同时也不会有太大的冲突。

@2 策略选择

在这个博弈中，男女双方都有两种策略：坚持自己的偏好或者妥协。如果他们都坚持自己的偏好，那么他们的收益为0，因为他们没有达成任何共识。如果他们都妥协，那么他们的收益为1，因为他们达成了一个双方都可以接受的协议。如果一个人坚持自己的偏好，而另一个人妥协，那么坚持自己偏好的人的收益为2，而妥协的人的收益为0。

@3 纳什均衡

因此，在这个博弈中，妥协是一个纳什均衡，因为如果一个人妥协，另一个人坚持自己的偏好，那么坚持自己偏好的人会获得更高的收益，而妥协的人会获得更低的收益。因此，双方都没有动机去改变自己的策略，从而达成一个稳定的、自我执行的协议。但如果站在更高的视角来看，第一次妥协的人第二次可以获得偏好的奖励，那么就可以达成新的动态平衡。

1.4 古诺模型

古诺模型（Cournot model）是早期的寡头模型。它是由法国经济学家古诺于 1838 年提出的。古诺模型是一个只有两个寡头厂商的简单模型，该模型假定一种产品市场上只有两个卖者，并且相互间没有任何勾结行为，但相互间都知道对方将怎样行动，从而各自怎样确定最优的产量来实现利润最大化，因此，古诺模型又称为双头垄断理论。

@1 背景

可口可乐和百事可乐是世界上最大的两家软饮料公司，它们生产的可乐是无差异的，并且市场需求是线性的，即市场上对可乐的需求量随着价格的下降而增加。

@2 策略选择

可口可乐和百事可乐都可以选择生产不同数量的可乐。它们需要考虑自己的产量决策对市场价格和利润的影响，以及对竞争对手的影响。

@3 纳什均衡

在古诺模型中，纳什均衡是指两个厂商都选择自己的最优产量，使得它们的利润最大化。在这种情况下，两个厂商的产量决策是相互依存的，因为它们的产量决策会影响市场价格和对方的利润。

具体来说，假设可口可乐选择生产 x 单位的可乐，百事可乐选择生产 y 单位的可乐。市场总需求量为 D，市场价格为 p。根据市场需求函数，我们可以得到市场价格 p 等于市场总供应量除以市场总需求量，即：

p = (x + y) / D

对于可口可乐和百事可乐，它们的利润等于销售收入减去生产成本，即：

πC = px - cC(x)，πP = py - cP(y)

其中，cC(x) 和 cP(y) 分别是可口可乐和百事可乐的生产成本函数。

在纳什均衡下，可口可乐和百事可乐都选择自己的最优产量，使得自己的利润最大化。这意味着，对于可口可乐，它会选择产量 x，使得：dπC / dx = 0

同样地，对于百事可乐，它会选择产量 y，使得：dπP / dy = 0

通过求解这两个方程，我们可以得到纳什均衡下的产量 x* 和 y*。

需要注意的是，古诺模型假设厂商是完全理性的，并且能够准确地预测市场情况。然而，在实际情况中，厂商的决策可能受到多种因素的影响，例如信息不对称、市场不确定性等。因此，古诺模型的结果可能与实际情况有所不同。

1.5 市场进入阻挠博弈

@1 背景

两个电信公司，分别是电信公司 A 和电信公司 B。电信公司 A 是市场上的老牌企业，拥有大量的客户和资源，而电信公司 B 是新进入市场的企业，想要分一杯羹。

@2 策略选择

在这种情况下，电信公司 A 可以选择采取以下策略之一：

合作策略：电信公司 A 可以选择与电信公司 B 合作，共同开发市场，分享资源和利润。
阻挠策略：电信公司 A 可以选择采取阻挠策略，通过降低价格、提供更好的服务等方式，来阻止电信公司 B 进入市场或者减少其市场份额。

@3 纳什均衡

如果电信公司 A 选择合作策略，那么电信公司 B 进入市场的成本将会降低，从而更容易进入市场并获得一定的市场份额。在这种情况下，电信公司 A 和电信公司 B 的利润都会增加，这是一个纳什均衡。

如果电信公司 A 选择阻挠策略，那么电信公司 B 进入市场的成本将会增加，从而更难进入市场或者减少其市场份额。在这种情况下，电信公司 A 的利润会增加，而电信公司 B 的利润会减少，这也是一个纳什均衡。

需要注意的是，在实际情况中，电信公司 A 的策略选择可能受到多种因素的影响，例如市场需求、竞争对手的策略等。因此，电信公司 A 需要根据实际情况来选择最适合自己的策略。

1.6 协调博弈

@1 背景

有两家公司A和B，分别生产同一种产品。如果两家公司都选择生产高质量的产品，那么它们都可以获得较高的利润。这是一个纳什均衡，因为如果一家公司选择生产高质量的产品，另一家公司也不会选择生产低质量的产品，因为这样会降低它们的利润。

@2 策略选择

然而，如果有一家公司选择生产低质量的产品，而另一家公司选择生产高质量的产品，那么生产低质量产品的公司将获得更高的利润，而生产高质量产品的公司将获得更低的利润。因此，生产低质量产品的公司的最优策略是选择生产低质量的产品，而生产高质量产品的公司的最优策略是选择生产高质量的产品。

@3 纳什均衡

在这个博弈中，存在一个纳什均衡，即两家公司都选择生产低质量的产品，这样它们都可以获得相同的收益。然而，这个纳什均衡结果并不一定是最优的结果，因为如果两家公司都选择生产高质量的产品，它们可以获得更高的利润。

这个故事说明了在管理中协调的重要性。如果两家公司能够协调它们的行为，选择生产高质量的产品，那么它们都可以获得更高的利润。这需要公司之间进行沟通和合作，以确保它们的行为是相互协调的。在管理中，协调可以帮助公司避免恶性竞争和不良行为，从而实现更好的合作和共赢。

1.7 懦夫博弈

@1 背景

军备竞赛的懦夫博弈案例中，美国和苏联是两个典型的参与者。

@2 策略选择

在冷战时期，美国和苏联之间的军备竞赛是一个典型的懦夫博弈。两个国家都可以选择增加或减少军事力量，以保护自己的国家利益。如果两个国家都增加军事力量，那么它们将陷入一场恶性循环，导致双方的资源和财富都被浪费在军事上。如果一个国家选择减少军事力量，而另一个国家继续增加军事力量，那么减少军事力量的国家将面临更大的威胁。

@3 纳什均衡

在这个博弈中，存在一个纳什均衡，即两个国家都选择增加军事力量，这样双方都不会受到威胁。这是因为，如果一个国家选择减少军事力量，而另一个国家继续增加军事力量，那么减少军事力量的国家将面临更大的威胁，而增加军事力量的国家也不能获得完全的胜利，因为它也会受到一定的威胁。

然而，这个纳什均衡结果并不一定是最优的结果，因为如果两个国家都选择减少军事力量，它们可以避免资源和财富的浪费，同时也可以避免陷入一场恶性循环。然而，在现实生活中，由于参与者之间的不信任和竞争，纳什均衡可能更容易出现。

2 模型纳什均衡

2.1 纳什均衡是什么？

纳什均衡是指在非合作博弈中，所有参与者的策略组合构成一个策略组合，其中没有任何一个参与者可以通过单方面改变自己的策略而获得更多的收益，也就是说，在给定其他参与者策略的情况下，每个参与者的策略都是最优的。

纳什均衡的概念是由美国数学家约翰·纳什在 20 世纪 50 年代提出的，它是博弈论中一个非常重要的概念，被广泛应用于经济学、政治学、社会学等领域。

在纳什均衡中，每个参与者都选择了自己的最优策略，从而使整个系统达到了一个稳定的状态。在这种状态下，任何一个参与者都不会有动机去改变自己的策略，因为这样做只会导致自己的收益减少。因此，纳什均衡是一种稳定的、自我执行的协议，它可以帮助参与者在竞争中达成共识，实现共同的利益。

2.2 为什么会有纳什均衡？

纳什均衡的出现是由以下几个因素共同作用的结果：

竞争与合作：在现实生活中，人们之间的关系往往是竞争与合作并存的。在竞争中，人们会采取最优策略来最大化自己的利益；而在合作中，人们会考虑彼此的利益，以达成共同的目标。纳什均衡正是在这种竞争与合作的背景下产生的，它反映了在给定其他参与者策略的情况下，每个参与者的最优策略。
个人理性：在纳什均衡中，每个参与者都被假定为是理性的，即他们会根据自己的利益最大化来选择策略。这种个人理性是纳什均衡存在的前提条件，因为只有当每个参与者都追求自己的利益最大化时，他们才会选择最优策略，从而达成纳什均衡。
策略互动：在纳什均衡中，每个参与者的策略都是相互影响的。一个参与者的策略会影响其他参与者的收益，从而影响他们的策略选择。这种策略互动是纳什均衡存在的关键因素，因为只有当每个参与者的策略相互影响时，他们才会考虑彼此的利益，从而达成共同的目标。
信息不对称：在现实生活中，信息往往是不对称的。不同的参与者可能拥有不同的信息，从而导致他们的策略选择不同。纳什均衡考虑了这种信息不对称的情况，它反映了在给定其他参与者策略的情况下，每个参与者的最优策略。

总之，纳什均衡的出现是由竞争与合作、个人理性、策略互动和信息不对称等因素共同作用的结果。它反映了在给定其他参与者策略的情况下，每个参与者的最优策略，是一种稳定的、自我执行的协议，有助于参与者在竞争中达成共识，实现共同的利益。

2.3 纳什均衡的分类

纳什均衡是指在非合作博弈中，所有参与者的策略组合构成一个策略组合，其中没有任何一个参与者可以通过单方面改变自己的策略而获得更多的收益，也就是说，在给定其他参与者策略的情况下，每个参与者的策略都是最优的。根据不同的分类标准，纳什均衡可以分为以下几类：

纯策略纳什均衡和混合策略纳什均衡：纯策略纳什均衡是指在博弈中，每个参与者都选择一个特定的策略，而混合策略纳什均衡是指在博弈中，每个参与者以一定的概率选择不同的策略。
占优策略纳什均衡和非占优策略纳什均衡：占优策略纳什均衡是指在博弈中，存在一个策略组合，其中每个参与者的策略都是相对于其他策略的最优策略。非占优策略纳什均衡是指在博弈中，不存在一个策略组合，其中每个参与者的策略都是相对于其他策略的最优策略。
对称纳什均衡和非对称纳什均衡：对称纳什均衡是指在博弈中，如果将所有参与者的策略进行对称变换后，仍然是一个纳什均衡。非对称纳什均衡是指在博弈中，不存在一个对称变换，使得变换后的策略组合仍然是一个纳什均衡。
严格纳什均衡和弱纳什均衡：严格纳什均衡是指在博弈中，不存在一个策略组合，其中至少有一个参与者可以通过单方面改变自己的策略而获得更多的收益。弱纳什均衡是指在博弈中，存在一个策略组合，其中至少有一个参与者不能通过单方面改变自己的策略而获得更多的收益。

需要注意的是，纳什均衡并不一定是最优的策略组合，也不一定能够实现社会最优效率。在实际应用中，需要根据具体情况选择合适的策略组合，以实现最优的结果。

3 模型简图

4 扩展零和博弈

4.1 什么是零和博弈？

零和博弈是一种非合作博弈，指的是在博弈中，参与者的收益和损失之和总是为零。也就是说，在零和博弈中，一个参与者的收益总是等于另一个参与者的损失，因此总的收益和损失是相等的。

零和博弈的起源可以追溯到 20 世纪初的数学和经济学领域。最早提出零和博弈概念的是美国数学家埃奇沃思（Francis Ysidro Edgeworth）和英国经济学家瓦尔拉斯（Léon Walras）。

零和博弈在多个领域都有应用，包括经济学、政治学、军事战略和赌博等。以下是一些常见的应用领域：

经济学：在经济学中，零和博弈可以用来描述竞争市场中的情况，其中一个公司的收益总是等于另一个公司的损失。
政治学：在政治学中，零和博弈可以用来描述国际关系中的情况，其中一个国家的收益总是等于另一个国家的损失。
军事战略：在军事战略中，零和博弈可以用来描述战争中的情况，其中一方的胜利总是意味着另一方的失败。
赌博：在赌博中，零和博弈是最常见的类型之一，其中一个玩家的收益总是等于另一个玩家的损失。

需要注意的是，零和博弈并不总是适用于所有情况。在现实生活中，许多情况下存在合作和共赢的可能性，因此非零和博弈的概念也很重要。

4.2 纳什均衡和零和博弈的联系和区别

纳什均衡和零和博弈都是博弈论中的重要概念，但它们之间存在一些联系和区别。

纳什均衡是指在非合作博弈中，每个参与者都选择了自己的最优策略，使得每个参与者的收益都是最大的，而且每个参与者的策略都是对其他参与者策略的最佳反应。在纳什均衡中，每个参与者的收益不一定相等，但是它们是相互制约的，因此总的收益是稳定的。

零和博弈是指在博弈中，参与者的收益和损失之和总是为零。在零和博弈中，一个参与者的收益总是等于另一个参与者的损失，因此总的收益和损失是相等的。

它们的联系和区别：

它们之间的联系：纳什均衡和零和博弈都是博弈论中的重要概念，它们都涉及到参与者的策略选择和收益分配。
它们之间的区别：纳什均衡是一种稳定的状态，每个参与者的收益都是最大的，而且每个参与者的策略都是对其他参与者策略的最佳反应。而零和博弈是一种不稳定的状态，一个参与者的收益总是等于另一个参与者的损失，总的收益和损失是相等的。

总的来说，纳什均衡是一种更一般的概念，它适用于非合作博弈和合作博弈，而零和博弈只适用于非合作博弈。在实际应用中，纳什均衡比零和博弈更常用，因为它更能反映现实生活中的情况。