【笔记】非完全信息下的动态博弈(序贯均衡)

本文深入探讨了非完全信息下的动态博弈,重点讲解了序贯均衡的概念,包括信念估计、序贯理性、一致性的定义,并通过实例分析了如何找到序贯均衡。在出价博弈的例子中,解释了买家和卖家的策略以及如何形成序贯均衡。

github博客链接
来源于mit的Economic Applications of Game Theory这门课的Lecture Notes的第16章。

序贯均衡

考虑如下博弈:

在这里插入图片描述

员工有 0.7 0.7 0.7 的概率是勤奋的, 0.3 0.3 0.3 的概率是懒惰的。公司可以选择雇佣或者不雇佣该员工;若雇佣,则员工可以选择工作或偷懒。注意到加粗的线表示了一个贝叶斯纳什均衡(Bayesian Nash equilibrium),这显然不是我们想要的结果。为了解决这个问题,不妨设员工是序贯理性(sequentially rational)的,即对于每一个其所在的信息集(information set)都会选择能使其期望收益最大的策略,那么员工就会选择工作而不是偷懒。而得知员工会选择工作后,公司也会改为雇佣该员工。

注意到第二个均衡是上述博弈中唯一的完美子博弈均衡(subgame-perfect equilibrium),那么使用完美子博弈均衡的方法是不是通用的呢?答案是否定的。考虑如下博弈:

在这里插入图片描述

这显然是一个完美子博弈均衡,因为并不存在真子博弈(proper subgame),同时这也是一个纳什均衡。注意到此时玩家 2 2 2 并不是序贯理性的,因此序贯理性的引入是必要的。下面形式化描述序贯理性:

定义1(信念估计)

定义信念估计(belief assessment) b b b 为每个信息集选取一个概率分布构成的列表。给定信息集 I I I,则 b ( ⋅ ∣ I ) b(\cdot|I) b(I) 给出了 I I I 上的概率分布。


对于给定的信息集 I I I,在该信息集上做决策的玩家会相信自己以 b ( ⋅ ∣ I ) b(\cdot|I) b(I) 的概率分布位于 I I I 上的节点。

定义2(序贯理性)

s s s 为策略组合(strategy profile), b b b 为信念估计。称 ( s , b ) (s,b) (s,b)序贯理性的当且仅当对于每个信息集 I I I,在以下条件下,在 I I I 上做决策的玩家最大化了自己的收益:

  1. 该玩家相信自己以 b ( ⋅ ∣ I ) b(\cdot|I) b(I) 的概率分布位于 I I I 的节点上;
  2. I I I 之后的博弈中,每个玩家都会根据 s s s 来决策。

例如在上一个博弈中,若玩家 2 2 2 μ \mu μ 的概率位于左边的节点, 1 − μ 1-\mu 1μ 的概率位于右边的节点。若玩家 2 2 2 是序列理性的,则无论 μ \mu μ 的值是多少,他都会选择决策 R R R

但这仍然不够。为了获得均衡,我们仍需要 b b b 是与 s s s 一致的。举例来说,仍然考虑上面的博弈

在这里插入图片描述

序贯理性的玩家 2 2 2 0.1 0.1 0.1 的概率位于左边的节点,他会选择 R R R 作为决策。此时玩家 1 1 1 会选择决策 T T T 作为决策 R R R 的最佳反应(best response)。显然这不是个均衡。问题就在于在均衡中,每个玩家都知道其他玩家的策略。但知道了玩家 1 1 1 的决策后,玩家 2 2 2 的信念估计就会发生改变。因此我们需要引入一致性:

定义3(一致性)

给定策略组合 s s s 和信念估计 b b b,令 I I I 为根据 s s s 进行决策时有可能被到达的信息集。称 b ( ⋅ ∣ I ) b(\cdot|I) b(I) s s s 一致当且按照 s s s 进行决策时,到达 I I I 上的概率分布恰好是 b ( ⋅ ∣ I ) b(\cdot|I) b(I)。即对于 ∀ n ∈ I \forall n\in I nI
b ( n ∣ I ) = Pr ⁡ ( n ∣ s ) ∑ n ′ ∈ I Pr ⁡ ( n ′ ∣ s ) b(n|I)=\frac{\Pr(n|s)}{\sum_{n'\in I}\Pr(n'|s)} b(nI)=nIPr(ns)Pr(ns)
其中 Pr ⁡ ( n ∣ s ) \Pr(n|s) Pr(ns) 表示根据 s s s 进行决策时到达 n n n 的概率。


但对于那些到达的概率为 0 0 0 的节点,上述式子的分母为 0 0 0,那么我们如何定义其一致性呢?一个方法是让每一条边均有一个很小的概率被选取,然后令这些概率趋于 0 0 0,得到的就是对应的概率分布。例如考虑如下博弈:

在这里插入图片描述

在策略组合是 ( X , T , L ) (X,T,L) (X,T,L) 时,玩家 3 3 3 的信息集被到达的概率为 0 0 0。不妨令玩家 1 1 1 2 2 2 分别有一个很小的概率 ϵ 1 , ϵ 2 \epsilon_1,\epsilon_2 ϵ1,ϵ2 发生“抖动”,即玩家 1 1 1 选择 E E E 的概率是 ϵ 1 \epsilon_1 ϵ1,选择 X X X 的概率是 1 − ϵ 1 1-\epsilon_1 1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值