耶鲁大学博弈论公开课学习笔记完整版

powerelectricdog

于 2025-05-01 15:52:00 发布

阅读量966

点赞数 20

本文链接：https://blog.csdn.net/weixin_36300623/article/details/147658545

版权

本文还有配套的精品资源，点击获取

简介：博弈论，作为一门研究决策者之间互动的数学和经济学交叉学科，通过耶鲁大学罗伯特·舒尔茨教授的公开课，向学习者展示了决策策略和思维的深度理解。本学习笔记系统性地介绍了博弈论的基本概念、模型和应用，从零和与非零和博弈的区分，到纳什均衡的分析；从扩展形式博弈和囚徒困境到动态博弈、完美与不完美信息博弈，以及贝叶斯博弈。合作博弈理论和联盟形成，合作稳定性，核分割问题也在讨论之列。博弈论的应用遍及经济、政治、生物和社会等多个领域，提供了对复杂环境下决策制定的深刻洞见。通过这份笔记，学习者可以提升策略思考能力，在多方面应用博弈论的理论与实践知识。

1. 博弈论的起源与基础概念

博弈论是研究具有冲突和合作特性的决策者（通常称为“玩家”）之间的战略互动的数学理论。它起源于20世纪初，最初由数学家Emile Borel引入，并由John von Neumann进一步发展。1944年，二人合著的《博弈论与经济行为》一书标志着现代博弈论的诞生。

1.1 博弈论的起源

博弈论的根源可以追溯到经济学和数学，但它的应用远远超出了这些领域。最初，博弈论被用来分析简单的二人零和游戏，其中一方的收益等于另一方的损失。然而，随着时间的推移，它逐渐扩展到可以描述复杂决策情境，包括多方参与和非零和结果的场合。

1.2 基础概念

博弈论中的基本概念包括玩家、策略、收益、信息集、博弈树和纳什均衡等。玩家是博弈的参与者，他们的目标是最大化自己的收益。策略是玩家在博弈中的行动计划。收益是玩家按照其策略进行博弈后的所得。信息集表示玩家在博弈中所掌握的信息。博弈树用于直观表示博弈的可能发展路径。纳什均衡是一种特殊的策略组合，其中没有玩家可以通过单方面改变策略来提高自己的收益。

博弈论是现代经济学、政治学、心理学、生物学和计算机科学等多个学科不可或缺的工具，它为我们理解和预测人类互动行为提供了深刻的洞见。随着博弈论的不断完善和扩展，它将继续引领我们探索决策的复杂世界。

2. 零和博弈与非零和博弈的理论框架

2.1 零和博弈的定义及其特征

2.1.1 零和博弈的基本原则

零和博弈是博弈论中最基本的一种形式，其中一位参与者的收益正好是另一位参与者的损失，即所有参与者的收益之和等于零。这种类型的博弈在经济学、国际关系、商业竞争等许多领域中都有应用。零和博弈的基本原则是“赢者通吃”，即一方的收益完全建立在另一方的损失之上。这种博弈中不存在双赢的可能，胜利者与失败者的利益是完全对立的。理解零和博弈的关键在于认识到在一个有限的资源或利益的环境下，参与者的目标是最大化自己的收益，而同时最小化对手的收益。

2.1.2 零和博弈的例子分析

一个经典的零和博弈例子是扑克游戏。在扑克游戏中，一位玩家赢得的筹码必定是其他玩家所输掉的筹码，因此整个游戏的总筹码数保持不变。如果把游戏看作一场博弈，那么玩家之间就处于零和关系，即一位玩家的胜利必然意味着其他玩家的失败。在商业竞争中，零和博弈也十分常见。例如，两个公司在竞标同一个项目时，只有一个公司能够赢得合同，另一个公司的失败直接导致了胜利方的成功，这就是一种零和博弈的体现。

2.2 非零和博弈的复杂性与机遇

2.2.1 非零和博弈的定义与分类

非零和博弈是指参与者之间的利益关系不是简单的零和关系，其结果可能使得所有参与者的总收益增加（正和博弈），或者减少（负和博弈），甚至可能是不确定的。在这种博弈中，参与者之间的互动更为复杂，存在合作的可能性和潜在的双赢结果。非零和博弈可以根据参与者的利益关系被分为正和博弈、负和博弈以及混合博弈等类型。正和博弈中，合作能够带来所有参与者收益的增加，而负和博弈则意味着合作会导致所有参与者的总收益减少。混合博弈介于两者之间，结果取决于参与者的策略选择。

2.2.2 非零和博弈中的合作与竞争

在非零和博弈中，合作与竞争是并存的。参与者需要在竞争和合作之间找到平衡点。合作可以带来更大的整体利益，但同时也可能使个体暴露在被对方背叛的风险之下。例如，在国际贸易中，各国可能通过签订自由贸易协定来增加各自的经济利益，实现正和博弈。但是，如果一方或多方违背协定，可能会导致合作破裂，而转变为零和或负和博弈。因此，在非零和博弈中，参与者不仅需要评估自身利益，还需要对其他参与者的策略进行预测和适应。

# 以下是一个简单的正和博弈的数学模型示例代码

# 导入NumPy库来处理数值运算
import numpy as np

# 定义参与者A和B的收益矩阵
payoff_matrix = np.array([[4, 2],
                          [1, 3]])

# 计算总收益矩阵
total_payoff = np.sum(payoff_matrix, axis=0)

# 输出总收益矩阵
print("总收益矩阵:")
print(total_payoff)

# 分析结果
# 如果总收益矩阵的值大于零，则表示这是一个正和博弈，合作可能带来双赢结果。

在这个正和博弈的示例中，我们创建了一个收益矩阵来表示两个参与者的潜在收益。通过计算总收益矩阵，我们可以判断出合作是否能够带来所有参与者收益的增加。如果总收益是正数，则说明参与者在合作情况下能够获得比独立行动更多的收益。在真实世界中，合作可以采取各种形式，例如企业之间的战略联盟，或政治领域中的多边条约。

3. 纳什均衡的深入剖析

纳什均衡是博弈论中的一个核心概念，它描述了一种状态，其中每个玩家在知道其他玩家策略的情况下选择最佳策略，且没有玩家能够通过改变自己的策略来获得更大的利益。它是由约翰·福布斯·纳什提出的，因此以他的名字命名。纳什均衡不仅在理论上有其重要意义，而且在实际中也有广泛的应用，从经济学到政治学，再到社会科学的各个方面。

3.1 纳什均衡的理论基础

3.1.1 纳什均衡的定义和意义

纳什均衡的定义是：在一个n人非合作博弈中，对于所有玩家i，若给定其他玩家的策略组合，玩家i的策略是最优反应，则称该策略组合为纳什均衡。

它的意义在于，它为博弈提供了一个稳态的解决方案。在纳什均衡状态下，所有玩家的策略都是相互的最佳反应，意味着没有玩家可以单方面通过改变策略来提高自己的收益。这个概念帮助我们理解在复杂的策略互动中，为何某些结果会稳定出现。

3.1.2 纳什均衡的识别与求解方法

识别纳什均衡首先需要构建玩家的收益矩阵，然后通过迭代删除被严格劣势策略支配的策略，最终得到纳什均衡解。在求解时，玩家需要考虑其他所有人的可能选择，并选择自己的最佳回应。

数学上，我们可以使用最佳响应函数和不动点定理来找到纳什均衡点。在实际中，我们还可以通过计算软件和博弈论算法来求解复杂的博弈。

import nashpy as nash

# 定义一个二人零和博弈的收益矩阵
A = [[1, -1], [-1, 1]]
B = [[1, -1], [-1, 1]]

# 创建博弈对象
game = nash.Game(A, B)

# 计算纳什均衡
equilibria = game.support_enumeration()

# 输出均衡结果
print(equilibria)

上面的Python代码使用了 nashpy 库来求解二人零和博弈的纳什均衡。库中的 support_enumeration 方法会计算出所有可能的均衡解。每个解是一个策略对，表示玩家应如何在博弈中行动。

3.2 纳什均衡在实际中的应用

3.2.1 市场竞争中的纳什均衡案例

市场竞争中，企业经常根据对手的决策来调整自己的市场策略。在价格战、广告战、产品开发等多种竞争形式中，纳什均衡可以帮助我们预测各企业之间可能形成的稳定策略组合。

例如，在一个简单的二人产品市场中，企业A和企业B都面临选择提高产品质量还是降低成本。如果一方提高质量而另一方降低成本，提高质量的一方将失去市场份额。在纳什均衡状态下，两家公司可能选择同一种策略，从而达到一种均衡。

3.2.2 政策制定与纳什均衡

在政策制定领域，政府机构和其他社会团体常常需要根据彼此的行动来制定各自的政策。政府在制定税收政策、环境保护标准等方面，要考虑民众和企业的反应，以达到最优的政策效果。

通过理解纳什均衡，政策制定者可以更准确地预测不同政策选择下各方的反应，从而设计出能够引导社会走向期望均衡的政策。这要求政策制定者深入考虑社会中各利益团体的潜在策略互动。

以上我们从理论基础到实际应用探讨了纳什均衡的深入剖析。在接下来的章节中，我们将进一步探讨扩展形式博弈和囚徒困境，以及动态博弈与完美信息博弈的演进，为读者提供更全面的博弈论视角。

4. 扩展形式博弈与囚徒困境的策略思考

在博弈论的发展历程中，扩展形式博弈提供了一种分析复杂动态决策的框架。这种形式允许参与者在不同时间点做出选择，而每个选择又可能导致多个结果。通过扩展形式博弈的结构和分析，我们能更深入地理解在具有多个阶段和信息不对称情况下的决策过程。本章将探讨扩展形式博弈的结构和分析方法，并深入分析囚徒困境的悖论及其解决策略。

4.1 扩展形式博弈的结构与分析

4.1.1 扩展形式博弈的特点

扩展形式博弈（Extensive Form Games）通过博弈树（Game Tree）的形式将博弈的每一个决策节点和信息集（Information Sets）完整地展现出来。这种形式特别适合描述和分析具有顺序行动的博弈。相较于标准形式博弈（Normal Form Games），扩展形式博弈能够展现博弈的动态性和时间维度，使分析更细致和具有前瞻性。

在扩展形式博弈中，每个参与者可以选择一系列动作，这些动作会根据其他参与者的反应而产生不同的博弈路径。这种结构使得分析者能够理解博弈的每一步可能带来的后果，并据此制定策略。以下是扩展形式博弈的几个关键特征：

决策节点 ：表示参与者必须做出选择的点。在博弈树中，每个决策节点后都可能分出多个分支，每个分支代表一个可能的动作选择。
信息集 ：表示参与者在做出决策时所拥有的信息集合。信息集允许在不同的节点上进行决策，即使参与者无法分辨自己处于哪个具体的节点。
子博弈 ：是博弈的一个部分，它在某个信息集内开始，且所有后续动作都属于这个信息集。子博弈精炼均衡（Subgame Perfect Equilibrium）是一种预测玩家在扩展形式博弈中的行为的方法。

4.1.2 扩展博弈中的子博弈精炼均衡

子博弈精炼均衡（SPE）是扩展形式博弈理论中的一个重要概念，由罗伯特·A·威尔逊和莱因哈德·塞尔滕提出。它是一种策略组合，其中每个子博弈都达到纳什均衡。换句话说，子博弈精炼均衡要求在博弈的任何阶段，只要到达一个子博弈，参与者的行为都必须是该子博弈的纳什均衡。

子博弈精炼均衡概念的引入，旨在解决扩展形式博弈中某些纳什均衡不合理的现象，即所谓的“颤抖手”均衡。它强调了理性预期和完美回溯的能力，要求每个玩家在博弈的任何阶段都不能做出非理性或不一致的行动。

下面是一个使用代码块来说明如何求解扩展博弈中的子博弈精炼均衡的示例。我们使用Python语言中的 gametheory 库来实现这一过程：

from gametheory import ExtensiveGame, SubgamePerfectEquilibrium

# 定义一个扩展形式博弈实例
class MyGame(ExtensiveGame):
    def __init__(self):
        super().__init__()
        # 添加博弈树结构，例如：
        # self.add_root_node()
        # self.add_chance_node()
        # self.add_player_action_node()
        # self.add_terminal_node()

    # 在这里定义支付函数等其他函数

# 创建博弈实例
game = MyGame()

# 计算子博弈精炼均衡
spe = SubgamePerfectEquilibrium(game)

# 输出均衡策略
for player, strategy in spe.strategies.items():
    print(f"Player {player} equilibrium strategy: {strategy}")

该代码块定义了一个扩展形式博弈的抽象类 MyGame ，其中 add_root_node , add_chance_node , add_player_action_node , add_terminal_node 等函数将用于构建博弈树结构。之后创建了一个博弈实例，并利用 SubgamePerfectEquilibrium 类计算子博弈精炼均衡。

4.2 囚徒困境的悖论与解决

4.2.1 囚徒困境的经典模型

囚徒困境（Prisoner's Dilemma）是博弈论中最著名的模型之一。它揭示了在个体追求自身最大利益的条件下，合作变得困难甚至不可能的情况。这个模型表明，即使合作对双方都有利，但在没有强制合作的机制下，理性的个体往往会选择背叛对方。

经典的囚徒困境模型是这样构建的：假设两名犯罪嫌疑人被单独监禁，并被给予同样的选择——要么保持沉默（合作），要么告发对方（背叛）。如果两人都保持沉默，那么他们各自会得到较轻的刑罚；如果一人告发而另一人保持沉默，那么告发者将被释放而另一人将受到重刑；如果两人都告发对方，那么他们都会得到中等刑罚。

4.2.2 囚徒困境中的合作策略与结果

在囚徒困境中，如果两名玩家都采取合作策略（保持沉默），他们将获得集体最优的结果。然而，根据博弈论的预测，理性的个体将选择背叛对方，因为无论对方做出什么选择，背叛都能带来相对更优的个人结果。

这个悖论引发了解决合作难题的策略思考。通过实验和理论分析，研究者发现以下几种策略能够促进合作：

重复博弈 ：当囚徒困境在多个回合中重复进行时，参与者有更多机会建立声誉并采取合作策略，以期望对方未来也会合作。
惩罚与奖励机制 ：通过设计合适的激励机制，惩罚背叛行为，奖励合作行为，从而促进合作的发生。
沟通与承诺 ：允许参与者沟通并做出承诺，这可能会改变对方的信任水平，使得合作成为可能。
演化博弈论 ：在演化博弈论中，通过模拟自然选择过程，可以观察到合作行为如何在群体中稳定下来。

为了解释合作策略与结果，我们可以使用下面的表格来展示囚徒困境支付矩阵：

%%{init: {'theme': 'default'}}%%
erD:
  graph TD
  A[保持沉默] -->|1,1| A
  A -->|0,3| B
  B[告发对方] -->|3,0| A
  B -->|2,2| B

这个支付矩阵展示了两名玩家（玩家A和玩家B）在不同的策略选择下的支付结果。数值1,1表示两个人都选择合作时的支付，0,3和3,0分别表示一人背叛而另一人合作时的支付，2,2表示两个人都背叛时的支付。

通过上述讨论，我们可以看出，尽管囚徒困境揭示了合作的困难，但通过一定的策略和机制设计，合作依然是可能实现的。在本章后续内容中，我们将进一步探讨如何通过博弈论的策略思考来解决囚徒困境。

5. 动态博弈与完美信息博弈的演进

5.1 动态博弈的时间维度与策略

动态博弈的时间连续性

动态博弈论研究的是在有时间连续性的博弈环境中，参与者的策略如何随时间演进而变化。在这种博弈中，决策者不仅要考虑当前的决策，还要预测未来可能的局势变化和对手的潜在反应。时间连续性意味着参与者需要评估其决策的长期效果，并考虑在整个博弈过程中的策略调整。

分析动态博弈时，一个关键的概念是“子博弈”，它是从原博弈中选择一个特定历史节点开始的博弈。在子博弈中，参与者的行为和决策能够反映出更长时期内的战略意图和规划。动态博弈的一个经典例子是“蜈蚣博弈”，它是一个有限但重复多阶段的博弈模型，参与者在每个阶段都有决策机会，而最终结果取决于所有阶段的决策累积。

动态博弈的另一个重要特点是策略反转，即参与者可能会基于未来可能的情况改变现有的策略。这种策略反转在“承诺博弈”中尤为常见，其中一个参与者通过在博弈早期作出一种策略承诺来影响对手的期望和决策，从而达到自身利益最大化的目的。

动态博弈中的策略反转与均衡

在动态博弈中，策略反转是实现均衡的关键手段之一。均衡的达成是通过博弈的每一阶段的参与者行为的稳定，即在给定其他参与者的策略下，没有任何一个参与者有动机去单方面改变自己的策略。在动态博弈中，这种均衡被称为“子博弈精炼均衡”。

子博弈精炼均衡的实现要求在每个子博弈中都存在一个纳什均衡。这意味着，即使在博弈树的后期阶段，所有参与者的策略都应当是理性选择的结果。这样的均衡状态是一个理想状态，因为实际上参与者在面对长期的动态博弈时，可能会因为各种不确定性而难以达到完全的理性预期。

实现子博弈精炼均衡的一个关键步骤是构建博弈的决策树。决策树是一种图形化工具，它表示了所有可能的决策路径及其结果，从而使得参与者能够更加直观地评估不同决策的可能后果。以下是构建一个简单动态博弈决策树的代码示例：

import matplotlib.pyplot as plt
import networkx as nx
import os

# 创建一个有向图
G = nx.DiGraph()

# 添加节点
G.add_node(1)
G.add_node(2, left=False)
G.add_node(3, left=False)
G.add_node(4, left=False)
G.add_node(5, left=False)

# 添加边，构建决策树结构
edges = [(1, 2), (1, 3), (2, 4), (3, 5)]
G.add_edges_from(edges)

# 为每条边添加权重
pos = {1: (0, 0), 2: (1, 1), 3: (1, -1), 4: (2, 1.5), 5: (2, -1.5)}
labels = {1: 'Start', 2: 'Left', 3: 'Right', 4: 'End', 5: 'End'}
weights = {('Start', 'Left'): '50', ('Start', 'Right'): '50'}

# 绘制决策树
nx.draw_networkx(G, pos, labels=labels, arrows=True, font_size=14, with_labels=True)
nx.draw_networkx_edge_labels(G, pos, edge_labels=weights, font_size=10)

plt.axis('equal')
plt.show()

这段代码创建了一个包含五个节点的有向图，用以表示一个简单的决策树。 pos 字典定义了节点的位置， labels 为节点添加标签， weights 为边添加权重（在这里用于表示不同决策路径的概率）。通过这种方式，参与者可以更清楚地理解各种决策路径及其概率，以及各种结果的期望值。

5.2 完美信息博弈与决策树

完美信息博弈的特点

完美信息博弈是指所有参与者在做出决策时，都能够完全了解之前所有阶段的博弈历史和信息。这种博弈的特点是透明度高，每个参与者都可以完全观察到所有相关的决策和事件。因此，在这种博弈中，策略的制定必须考虑先前所有行动的累积效应。

一个经典的完美信息博弈模型是“逆向归纳法”，即从博弈的最后阶段开始，逐步推断出前一阶段的最优策略。逆向归纳法的核心思想是，一旦到达博弈的最后一个阶段，每个参与者的最优决策变得相对简单，因为此时不再有未来行动的影响需要考虑。通过这种分析方法，可以逆推出整个博弈的均衡策略。

决策树在博弈分析中的应用

决策树在完美信息博弈中的应用是分析和制定策略的重要工具。通过决策树，博弈者可以清晰地看到不同决策导致的潜在结果，并且能够基于概率论和期望值计算来评估这些结果的总体价值。在动态博弈中，决策树可以帮助参与者理解如何根据对手的行为来调整自己的策略。

决策树的构建涉及到几个步骤，首先是确定博弈的阶段和可能的决策节点，其次是计算不同决策路径的概率以及相关的收益或损失。在此基础上，可以通过逆向归纳法从博弈的最后阶段开始，确定最优策略，并最终得出整个博弈的子博弈精炼均衡。

为了说明决策树的构建和应用，下面给出一个简化的博弈示例：

import pandas as pd

# 假设的博弈收益表
payoff_matrix = {
    '决策者': ['决策A', '决策B'],
    '自然': ['好状态', '坏状态'],
    '收益': [[400, 100], [200, 300]]
}

# 创建一个DataFrame来表示收益表
df = pd.DataFrame(payoff_matrix)

print(df)

上述代码构建了一个简单的收益矩阵，并用Pandas的DataFrame来展示。这个表格展示了在“决策者”的两个决策（A或B）和“自然”两种可能的状态（好状态或坏状态）下，不同决策路径的潜在收益。决策树的构建可以从这个收益表开始，为每个决策节点及其可能结果赋予概率，并计算期望值，帮助决策者制定最优策略。

完美信息博弈和决策树的结合，提供了深入理解和解决复杂博弈问题的有效方法。通过这种分析，参与者可以预测到博弈的各个阶段，优化自己的策略，并在博弈中取得更好的结果。