【笔记】非完全信息下的动态博弈（序贯均衡）

最新推荐文章于 2025-10-10 21:56:40 发布

原创

最新推荐文章于 2025-10-10 21:56:40 发布 · 5.1k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#算法

本文深入探讨了非完全信息下的动态博弈，重点讲解了序贯均衡的概念，包括信念估计、序贯理性、一致性的定义，并通过实例分析了如何找到序贯均衡。在出价博弈的例子中，解释了买家和卖家的策略以及如何形成序贯均衡。

github博客链接
来源于mit的Economic Applications of Game Theory这门课的Lecture Notes的第16章。

序贯均衡

考虑如下博弈：

在这里插入图片描述

员工有 $0.7$ 的概率是勤奋的， $0.3$ 的概率是懒惰的。公司可以选择雇佣或者不雇佣该员工；若雇佣，则员工可以选择工作或偷懒。注意到加粗的线表示了一个贝叶斯纳什均衡（Bayesian Nash equilibrium），这显然不是我们想要的结果。为了解决这个问题，不妨设员工是序贯理性（sequentially rational）的，即对于每一个其所在的信息集（information set）都会选择能使其期望收益最大的策略，那么员工就会选择工作而不是偷懒。而得知员工会选择工作后，公司也会改为雇佣该员工。

注意到第二个均衡是上述博弈中唯一的完美子博弈均衡（subgame-perfect equilibrium），那么使用完美子博弈均衡的方法是不是通用的呢？答案是否定的。考虑如下博弈：

在这里插入图片描述

这显然是一个完美子博弈均衡，因为并不存在真子博弈（proper subgame），同时这也是一个纳什均衡。注意到此时玩家 $2$ 并不是序贯理性的，因此序贯理性的引入是必要的。下面形式化描述序贯理性：

定义1（信念估计）

定义信念估计（belief assessment） $b$ 为每个信息集选取一个概率分布构成的列表。给定信息集 $I$ ，则 $b(\cdot|I)$ 给出了 $I$ 上的概率分布。

对于给定的信息集 $I$ ，在该信息集上做决策的玩家会相信自己以 $b(\cdot|I)$ 的概率分布位于 $I$ 上的节点。

定义2（序贯理性）

令 $s$ 为策略组合（strategy profile）， $b$ 为信念估计。称 $(s, b)$ 是序贯理性的当且仅当对于每个信息集 $I$ ，在以下条件下，在 $I$ 上做决策的玩家最大化了自己的收益：

该玩家相信自己以 $b(\cdot|I)$ 的概率分布位于 $I$ 的节点上；
在 $I$ 之后的博弈中，每个玩家都会根据 $s$ 来决策。

例如在上一个博弈中，若玩家 $2$ 以 $\mu$ 的概率位于左边的节点， $1-\mu$ 的概率位于右边的节点。若玩家 $2$ 是序列理性的，则无论 $\mu$ 的值是多少，他都会选择决策 $R$ 。

但这仍然不够。为了获得均衡，我们仍需要 $b$ 是与 $s$ 一致的。举例来说，仍然考虑上面的博弈

在这里插入图片描述

序贯理性的玩家 $2$ 以 $0.1$ 的概率位于左边的节点，他会选择 $R$ 作为决策。此时玩家 $1$ 会选择决策 $T$ 作为决策 $R$ 的最佳反应（best response）。显然这不是个均衡。问题就在于在均衡中，每个玩家都知道其他玩家的策略。但知道了玩家 $1$ 的决策后，玩家 $2$ 的信念估计就会发生改变。因此我们需要引入一致性：

定义3（一致性）

给定策略组合 $s$ 和信念估计 $b$ ，令 $I$ 为根据 $s$ 进行决策时有可能被到达的信息集。称 $b(\cdot|I)$ 与 $s$ 一致当且按照 $s$ 进行决策时，到达 $I$ 上的概率分布恰好是 $b(\cdot|I)$ 。即对于 $\forall n\in I$ ，
$b(n|I)=\frac{\Pr(n|s)}{\sum_{n'\in I}\Pr(n'|s)}$
其中 $\Pr(n|s)$ 表示根据 $s$ 进行决策时到达 $n$ 的概率。

但对于那些到达的概率为 $0$ 的节点，上述式子的分母为 $0$ ，那么我们如何定义其一致性呢？一个方法是让每一条边均有一个很小的概率被选取，然后令这些概率趋于 $0$ ，得到的就是对应的概率分布。例如考虑如下博弈：

在这里插入图片描述

在策略组合是 $(X, T, L)$ 时，玩家 $3$ 的信息集被到达的概率为 $0$ 。不妨令玩家 $1$ 和 $2$ 分别有一个很小的概率 $\epsilon_1,\epsilon_2$ 发生“抖动”，即玩家 $1$ 选择 $E$ 的概率是 $\epsilon_1$ ，选择 $X$ 的概率是 $1-\epsilon_1$

最低0.47元/天解锁文章