github博客链接
来源于mit的Economic Applications of Game Theory这门课的Lecture Notes的第16章。
序贯均衡
考虑如下博弈:

员工有 0.7 0.7 0.7 的概率是勤奋的, 0.3 0.3 0.3 的概率是懒惰的。公司可以选择雇佣或者不雇佣该员工;若雇佣,则员工可以选择工作或偷懒。注意到加粗的线表示了一个贝叶斯纳什均衡(Bayesian Nash equilibrium),这显然不是我们想要的结果。为了解决这个问题,不妨设员工是序贯理性(sequentially rational)的,即对于每一个其所在的信息集(information set)都会选择能使其期望收益最大的策略,那么员工就会选择工作而不是偷懒。而得知员工会选择工作后,公司也会改为雇佣该员工。
注意到第二个均衡是上述博弈中唯一的完美子博弈均衡(subgame-perfect equilibrium),那么使用完美子博弈均衡的方法是不是通用的呢?答案是否定的。考虑如下博弈:

这显然是一个完美子博弈均衡,因为并不存在真子博弈(proper subgame),同时这也是一个纳什均衡。注意到此时玩家 2 2 2 并不是序贯理性的,因此序贯理性的引入是必要的。下面形式化描述序贯理性:
定义1(信念估计)
定义信念估计(belief assessment) b b b 为每个信息集选取一个概率分布构成的列表。给定信息集 I I I,则 b ( ⋅ ∣ I ) b(\cdot|I) b(⋅∣I) 给出了 I I I 上的概率分布。
对于给定的信息集 I I I,在该信息集上做决策的玩家会相信自己以 b ( ⋅ ∣ I ) b(\cdot|I) b(⋅∣I) 的概率分布位于 I I I 上的节点。
定义2(序贯理性)
令 s s s 为策略组合(strategy profile), b b b 为信念估计。称 ( s , b ) (s,b) (s,b) 是序贯理性的当且仅当对于每个信息集 I I I,在以下条件下,在 I I I 上做决策的玩家最大化了自己的收益:
- 该玩家相信自己以 b ( ⋅ ∣ I ) b(\cdot|I) b(⋅∣I) 的概率分布位于 I I I 的节点上;
- 在 I I I 之后的博弈中,每个玩家都会根据 s s s 来决策。
例如在上一个博弈中,若玩家 2 2 2 以 μ \mu μ 的概率位于左边的节点, 1 − μ 1-\mu 1−μ 的概率位于右边的节点。若玩家 2 2 2 是序列理性的,则无论 μ \mu μ 的值是多少,他都会选择决策 R R R。
但这仍然不够。为了获得均衡,我们仍需要 b b b 是与 s s s 一致的。举例来说,仍然考虑上面的博弈

序贯理性的玩家 2 2 2 以 0.1 0.1 0.1 的概率位于左边的节点,他会选择 R R R 作为决策。此时玩家 1 1 1 会选择决策 T T T 作为决策 R R R 的最佳反应(best response)。显然这不是个均衡。问题就在于在均衡中,每个玩家都知道其他玩家的策略。但知道了玩家 1 1 1 的决策后,玩家 2 2 2 的信念估计就会发生改变。因此我们需要引入一致性:
定义3(一致性)
给定策略组合 s s s 和信念估计 b b b,令 I I I 为根据 s s s 进行决策时有可能被到达的信息集。称 b ( ⋅ ∣ I ) b(\cdot|I) b(⋅∣I) 与 s s s 一致当且按照 s s s 进行决策时,到达 I I I 上的概率分布恰好是 b ( ⋅ ∣ I ) b(\cdot|I) b(⋅∣I)。即对于 ∀ n ∈ I \forall n\in I ∀n∈I,
b ( n ∣ I ) = Pr ( n ∣ s ) ∑ n ′ ∈ I Pr ( n ′ ∣ s ) b(n|I)=\frac{\Pr(n|s)}{\sum_{n'\in I}\Pr(n'|s)} b(n∣I)=∑n′∈IPr(n′∣s)Pr(n∣s)
其中 Pr ( n ∣ s ) \Pr(n|s) Pr(n∣s) 表示根据 s s s 进行决策时到达 n n n 的概率。
但对于那些到达的概率为 0 0 0 的节点,上述式子的分母为 0 0 0,那么我们如何定义其一致性呢?一个方法是让每一条边均有一个很小的概率被选取,然后令这些概率趋于 0 0 0,得到的就是对应的概率分布。例如考虑如下博弈:

在策略组合是 ( X , T , L ) (X,T,L) (X,T,L) 时,玩家 3 3 3 的信息集被到达的概率为 0 0 0。不妨令玩家 1 1 1 和 2 2 2 分别有一个很小的概率 ϵ 1 , ϵ 2 \epsilon_1,\epsilon_2 ϵ1,ϵ2 发生“抖动”,即玩家 1 1 1 选择 E E E 的概率是 ϵ 1 \epsilon_1 ϵ1,选择 X X X 的概率是 1 − ϵ 1 1-\epsilon_1 1−

本文深入探讨了非完全信息下的动态博弈,重点讲解了序贯均衡的概念,包括信念估计、序贯理性、一致性的定义,并通过实例分析了如何找到序贯均衡。在出价博弈的例子中,解释了买家和卖家的策略以及如何形成序贯均衡。
最低0.47元/天 解锁文章
2099

被折叠的 条评论
为什么被折叠?



