【笔记】决策与博弈(下)——Rita_Aloha

目录

Ⅱ. 博弈与博弈树

一、博弈

1.博弈的基本概念

2.博弈分析的目的

3.博弈的分类

4.博弈的描述

5.完全信息静态博弈

6.完全信息动态博弈

7.不完全信息静态博弈

8.不完全信息动态博弈

二、博弈树

1.描述图形

2.树状图

3.博弈树

4.博弈树搜索


Ⅱ. 博弈与博弈树

一、博弈

1.博弈的基本概念

博弈论的基本概念包括参与人、行动、信息、战略、支付(效用)、结果和均衡。参与人、行动与结果统称为“博弈规则”。博弈分析的目的是使用博弈规则预测均衡。

(1)参与人:参与人指的是一个博弈中的决策主体。每个参与人必须有可供选择的行动和一个很好定义的偏好函数。不作决策的被动主体只当作环境参数来处理。

(2)行动:行动是参与人在博弈的某个时点的决策变量。有关静态博弈与动态博弈的区分就是基于行动的顺序作出的。在博弈论中,一般假定参与人的行动空间和行动顺序是所有参与人的共同知识。

(3)信息

  • 信息是参与人有关博弈的知识,特别是有关‘自然’的选择、其他参与人的特征和行动的知识。
  • 信息集

  • 完美信息是指一个参与人(包括虚拟参与人‘自然’)对其他参与人的行动选择有准确了解的情况,即每一个信息集只包含一个值。
  • 完全信息是指自然不首先行动或自然的初始行动被所有参与人准确观察到的情况,即没有事前的不确定性。
  • 公共知识是指参与人都知道的知识,并且任何参与人在公共知识上没有因为掌握这一知识而具有优势。一般地,公共知识是无穷级共同知识的简称。

(4)战略:战略是参与人在给定信息集的情况下的行动规则,它规定了参与人在什么时候选择什么行动。战略是行动的规则而不是行动本身。在静态博弈中,战略和行动是相同的。作为一种行动规则,战略必须是完备的。

(5)支付(效用):在博弈论中,支付或者是指在一个特定的战略组合下参与人得到的确定效用水平,或者是指参与人得到的期望效用水平。

(6)均衡:均衡是所有参与人的最优战略的组合。在均衡战略实施时,博弈实际发生的行为序列称为均衡结果。均衡结果是均衡策略的外在表现。在动态策略中,不同的均衡会有相同的均衡结果。

2.博弈分析的目的

博弈分析的目的是预测博弈的均衡结果,即给定参与人都是理性的,每个参与人都知道每个参与人都是理性的。有了博弈模型,分析的重点是找出均衡,均衡是博弈模型的解,实质是对参与人策略的理性预测。

博弈分析与单人决策分析的重要区别:在单人决策分析里,只有一个决策人,他面临的唯一不确定性是‘自然’可能的行动,他对自然选择不同行动的概率有一个固定的、外生的信念。相反,在博弈分析中有多个决策人,每个决策人有关其他决策人的行为的信念并不是外生的。

3.博弈的分类

(1)按照参与人行动的先后顺序:静态博弈与动态博弈

(2)按照参与人对其他参与人的了解程度:完全信息博弈与不完全信息博弈

(3)按照参与人之间是否合作:合作博弈与非合作博弈

  • 合作博弈是指参与人之间有着一个对各方具有约束力的协议,参与人在协议范围内进行的博弈;
  • 非合作博弈可以分为四类:完全信息静态博弈、完全信息动态博弈,不完全信息静态博弈和不完全信息动态博弈

4.博弈的描述

(1)博弈的任何描述都必须包括以下要素:

  • 参与人(决策者)的集合
  • 每个参与人的可能行动
  • 决定参与人行动顺序的规则
  • 裁定博弈结束的规则
  • 裁定每个博弈终局结果的规则

(2)博弈的策略式表述

①策略式表述又称为标准式表述,在这种表述中,所有参与人同时选择各自的战略,所有参与人选择的战略一起决定每个参与人的支付。策略式表述更适合描述静态博弈。

②策略式表述给出要素

  • 博弈参与人的有限集合   i∈N,N=(1,2,...,n)   
  • 每个参与人的策略空间(集合)   S~i~, i∈N;用 S=S~1~×S~2~×...×S~n~ 表示所有策略向量的集合。
  • 每个参与人 i∈N,u~i~:S→是连接向量s=(s~i~)~i∈N~和参与人i的效用函数   u~i~(s~1~,...,s~i~,...,s~n~),i∈N

③策略式表述博弈

                                                                                     G=\left \{ S_{1},...,S_{n};u_{1},...,u_{n} \right \}

④策略式博弈的理论目标

  • 推测参与人更有可能选择哪个策略
  • 向参与人建议选择(或者不选择)哪个策略

⑤策略式博弈中参与人的追求方向(影响策略结果)

  • 安全性:用最大最小值和最大最小策略来刻画
  • 稳定性:用“纳什均衡”的概念来刻画

⑥策略式博弈有时也叫作矩阵博弈,当参与人的数目n大于2时,对应的矩阵是n维的且每个单元格包含一个n维向量,表示n个参与人的收益(效用)。

如果不存在随机行动,策略式博弈是根据以下扩展式博弈得出的:

  • 列出扩展式博弈中每个参与人i的所有策略S~i~
  • 对于每个策略向量s=(s~i~)~i∈N~,找到这个策略向量决定的博弈展开及该博弈展开对应的收益     u(s)=(u~1~(s),u~2~(s),...,u~n~(s))
  • 画出合适的n维向量。当只有两个参与人时,矩阵的行数等于参与人Ⅰ的策略数,列数等于参与人Ⅱ的策略数,每个单元格中的一对数字是与这个单元格对应的一对策略所对应的收益。当参与人是多于两个时,矩阵是多维的。

如果存在随机行动,策略式博弈是根据以下扩展式博弈得出的:

  • 每个策略向量s=(s~i~)~i∈N~决定了集合O上的一个概率分布(O是博弈可能结果的集合):对每一个o∈O,当参与人根据策略向量s展开博弈时,结果为o的概率值就是μ~s~(o)。策略向量s对应的单元格包含的是平均的收益,即向量 u(s)=(u~i~(s))~i∈N~ ∈R^N^的定义如下                                                                                                                                            u_{i}(s):=\sum_{o\in O}\mu_{s}(o)\times u_{i}(o)

(3)博弈的扩展式表述

①包含要素

  • 参与人集合   i=1,2,...,n【用N代表虚拟参与人“自然”】
  • 参与人的行动顺序(the order of moves)
  • 参与人的行动空间(action set)
  • 参与人的信息集(information set)
  • 参与人的效用函数【一说讨论参与人的支付函数】
  • 外生事件(即自然的选择)的概率分布

②扩展式描述就是指把动态博弈用书的形式表示出来的模式。

③扩展式描述的博弈实际上是一个有向图,一般按阶段进行描述时不会引起方向上的混乱,不用再抽象的图论语言进行描述。

④n人有限策略博弈的扩展式表述可以用博弈树来表示。

(4)扩展式与策略式的对应

动态博弈的扩展式描述直观,便于理解。实际上,动态博弈用策略式描述时就可以转化为静态博弈,就是把动态的特征包含在策略中,能以策略的形式给出行动选择的规则,虽然两种表达方式都可以采用,但博弈有很多阶段时,策略式表示往往会比较困难,也可能丢失一些顺序信息。动态博弈用策略式描述的缺点一方面是在问题复杂时策略会很复杂;另一方面,策略式表达中求出的纳什均衡不能区分是否存在不可置信威胁的情况。

尽管扩展式表述博弈与策略式表述博弈具有完全相同的纯策略空间,策略式表述博弈的混合策略集合不同于扩展式表述博弈的行为策略集合。类似可以从扩展式表述博弈构造出策略式表述博弈从而构造出纯策略一样,也可以从行为策略构造出混合策略。一个行为策略可能对应多个混合策略;但逆定理不成立,即一个混合策略只对应一个行为策略。

尽管混合策略和行为策略是两个不同的概念,库恩证明,在完美回忆博弈中,这两个概念是等价的。就是说,任何混合策略σ~i~等价于一个唯一的行为策略b~i~,任何一个行为策略b~i~等价于每一个从该行为策略构造的混合策略σ~i~。这里,“等价”的意思是,对于其他参与人的所有策略,σ~i~和b~i~在结果(支付)上定义了相同的概率分布。

5.完全信息静态博弈

(1)特征

  • 静态是指参与人同时选择行动,或实际上等效于同时选择。
  • 完全信息

(2)纳什均衡

①纳什均衡定义

纳什均衡经常被简单称为均衡,有时也被称为均衡点。纳什均衡可以等价地用最佳应对的定义来表达。

②纳什均衡的特征

  • 纳什均衡所体现的最重要的特征就是稳定性:在纳什均衡下,每个参与人针对其他参与人的行为,选择对自己最有利的行动。
  • 自我实现的协议:如果存在一个“协议”,要求参与人执行一个特定的均衡,那么即使协议不具有约束力也没人违约;没有人会偏离均衡点,因为单方面违约,无利可图。
  • 纳什均衡的一致性:当参与人预测到均衡结果时,参与人如果改变自己的均衡策略是不能谋利的。(以上两特征的统一)

③完全信息静态博弈中,纳什均衡是解的最一般概念。构成纳什均衡的战略一定是重复剔除严格劣战略过程中不能被剔除的战略,也就是说,没有任何一个战略严格优于纳什均衡战略,当然逆定理不一定成立;更为重要的是,许多不存在占优战略均衡或重复剔除的占优均衡的博弈,却存在纳什均衡。

④占优战略均衡

  • 【定义】给定参与人i的策略s~i~,如果存在另一个策略t~i~,使得对其他参与人的每个策略向量s~-i~∈S~-i~,满足

                                                                                                                                                                              u_{i}(s_{i},s_{-i})<u_{i}(t_{i},s_{-i})

那么策略s~i~就叫做参与人i的严格劣策略。此时,说s~i~被t~i~严格占优,或者说t~i~严格占优于s~i~。

  • 【定义】给定参与人i 的策略s~i~,如果存在另一个策略t~i~,满足如下两个条件

i.对其他参与人的每一个策略向量s~-i~∈S~-i~,

                                                                       u_{i}(s_{i},s_{-i})\leqslant u_{i}(t_{i},s_{-i})

ii.存在其他参与人的一个策略向量t~-i~∈S~-i~,使得

                                                                       u_{i}(s_{i},t_{-i})<u_{i}(t_{i},t_{-i})

此时,说策略s~i~被策略t~i~弱占优,或者说策略t~i~弱占优于策略s~i~。

  • 【定义】如果策略向量s∈S是重复剔除劣策略后得到的唯一结果,那么这个策略向量被称为是合理的。
  • 占优战略定义:不论其他参与人选择什么战略,此参与人的最优战略是唯一的,这样的最优战略被称为‘占优战略’。
  • 占优战略均衡定义:在博弈的策略式表述中,如果对于所有的i,s~i~^*^是i的占优战略,那么,战略组合s*=(s~1~^*^,...,s~n~^*^)称为占优战略均衡。

⑤重复剔除的占优均衡

  • 重复剔除严格劣战略的思路:首先找出某个参与人的劣战略(假定存在),把这个劣战略剔除掉,重新构造一个不包含已剔除战略的新的博弈;然后再剔除这个新的博弈中的某个参与人的劣战略;持续这个过程,直到剩下唯一的战略组合。此唯一战略组合就是这个博弈的均衡解,称为‘重复剔除的占优均衡’。
  • 重复剔除的占有均衡:战略组合s*=(s~1~^*^,...,s~n~^*^)称为重复剔除的占有均衡,如果它是重复剔除劣战略后剩下的唯一的战略组合。如果这种唯一的战略组合是存在的,称该博弈是重复剔除占优可解的;如果重复剔除后剩下的战略组合不唯一,则称该博弈不是重复剔除占优可解的。

⑥纳什均衡与占优战略均衡及重复剔除的占优均衡之间的关系

  • 每一个占优战略均衡、重复剔除的占优均衡一定是纳什均衡,但并非每一个纳什均衡都是占优战略均衡或重复剔除的占优均衡。
  • 纳什均衡一定是在重复剔除严格劣战略过程中没有被剔除的战略组合,但没有被剔除的战略组合不一定是纳什均衡,除非它是唯一的。(不适用于弱战略剔除:如果使用弱战略剔除,均衡的结果可能与剔除顺序有关。)

⑦纯战略纳什均衡

  • 如果一个战略规定参与人在每一个给定的信息情况下只选择一种特定的行动,称该战略为纯战略。
  • 在纯战略情况下,参与人i的支付u~i~是纯战略组合 s=(s~1~,...,s~i~,...,s~n~) 的函数,即u~i~=u~i~s=(s~1~,...,s~i~,...,s~n~);对于任何给定的战略组合 s=(s~1~,...,s~i~,...,s~n~),u~i~取一个确定的值。

⑧混合战略纳什均衡

  • 如果一个战略规定参与人在给定信息情况下以某种概率分布随机地选择不同的行动,称该战略为混合战略,混合策略是纯策略的概率分布。

⑨重复剔除劣战略

  • 严格劣策略的剔除对博弈的均衡集没有任何影响。
  • 重复剔除弱劣策略会减少均衡集,但是不会产生新的均衡。
  • 剔除劣策略不影响特定参与人的最大最小值,不管这些策略是严格劣策略还是弱劣策略。
  • 剔除一个参与人的(严格或弱)劣策略可能会增加其他参与人的最大最小值(但不会降低其他参与人的最大最小值)。
  • 重复剔除弱劣策略的过程不会产生新的均衡。
  • 重复剔除弱劣策略可能会剔除掉原来博弈的全部均衡。但是,重复剔除严格劣策略时不会发生,会保留原来的均衡点集。
  • 如果重复剔除严格劣策略后剩下唯一的策略向量s*,那么s*就是博弈唯一的纳什均衡。

⑩连续策略的一般描述

  • 若n个参与人的博弈,参与人i的策略空间A~i~,x~i~∈A~i~代表一个策略,收益函数u_i=(x_1,x_2,...,x_n),其纳什均衡x^*=(x_1^*,x_2^*,...x_n^*)定义为u_i(x_i^*,x_{-i}^*)\geqslant u_i(x_i,x_{-i}^*)x_i\in A_i;i=1,2,...,n。
  • 当A~i~为实数区间,且效用函数为可微函数时,可用求极值的方法求解纳什均衡,根据定义,若x*为纳什均衡,则x*满足:

                                                                                                                                                                            \left.\begin{matrix} \frac{\partial u_i}{\partial x_i} \end{matrix}\right|_{x=x^*}=0   i=1,2,...,n

(3)纳什均衡的存在性和多重性

①纳什均衡的存在性定理

  1. 每一个有限博弈至少存在一个纳什均衡(纯策略的或混合策略的)。
  2. 在n人的策略式博弈中,如果每个参与人的纯策略空间S~i~是欧式空间上的一个非空、闭的、有界的凸集,支付函数u~i~(s)是连续的且对s~i~是拟凹的,那么,存在一个纯策略的纳什均衡。
  3. 在n人策略式博弈中,如果每个参与人的纯策略空间S~i~是欧式空间上一个非空的、闭的、有界的凸集额,支付函数u~i~(s)是连续的,那么,存在一个混合策略纳什均衡。

②纳什均衡的多重性

博弈论非常关注在模型结构之内的可预测性问题,博弈分析的目的是预测参与人的合理行为方式。然而现实的人,在处理互动问题时,也许在结构之内的行为预测有困难时很有可能就会从打破博弈规则上来思考。而对于人类的经济与管理的互动问题,多重纳什均衡极有可能是进入协调的起点。在博弈的结构之内,多个纳什均衡的地位是平等的。在多个纳什均衡问题中的预测必须依赖博弈模型外的信息。博弈的结构是规则与制度的产物,而理性人与现实人都会在制度上做文章。萨林(Schelling,1960)指出在现实生活中,参与人可能使用某些被博弈模型抽象掉的信息来达到一个“聚点”(focal point)均衡。因此可以把多重纳什均衡的存在作为制度创新的空间。

(4)计算混合策略均衡

①直接方法

写下策略式博弈的混合扩展,然后计算混合扩展的均衡(极值法或均衡法)。这个方法对于每个参与人都有两个纯策略的二人博弈很有效,担当有更多策略,或者更多的参与人时,就变得异常复杂。

②计算均衡点

在非零和博弈中,纳什均衡的解概念和最大最小值不是等价的。因此直接方法的计算过程无法得出纳什均衡点。通过寻找两个参与人的最佳应对图形的交点,是计算均衡点的几何方法,然而当参与人个数超过两个或者每个参与人的纯策略超过两个时,这个方法就不适用了。

③无差异原则

无差异原则是指,如果一个混合均衡要求参与人以正的概率使用两个不同的纯策略,假定其他参与人按照均衡选择策略,那么该参与人选择某个纯策略的预期收益,应该等于他选择另外一个纯策略的预期收益。

④占有与均衡

⑤二人零和博弈和线性规划

 

计算二人零和博弈的值(每个参与人的策略数是有限的)并找到此类博弈的最佳策略,可以表述为一个线性规划问题。

⑥非零和二人博弈

计算二人非零和博弈的均衡可以通过解一个二次规划来实现。

(5)补充内容

①纳什均衡有强弱之分

  • s*是一个强纳什均衡,当且仅当对于所有的i,s_{i}'\neq s_{i}^{*}u_{i}(s_{i}^{*},s_{-i}^{*})> u_{i}(s_{i}',s_{-i}^{*})
  • 如果一个纳什均衡是强的,没有任何参与人在均衡战略与某些其他战略之间是无差异的。
  • 在弱纳什均衡的情况下,有些参与人可能在均衡战略与非均衡战略之间是无差异的。

②几种均衡的相互关系:

  • 严格占优均衡是强纳什均衡。
  • 非严格占优均衡是弱纳什均衡。
  • 严格下策反复消去均衡是强纳什均衡。
  • 非严格下策反复消去时,纳什均衡有可能被消去。

③二人零和博弈

  • 参与人Ⅰ与参与人Ⅱ的最大最小策略和最小最大策略叫做最佳策略。
  • 每一个有限的、二人、灵鹤、扩展式、完全信息博弈都有一个值,是均衡的收益。
  • 在二人零和博弈中,如果有两个均衡,则这两个均衡所对应的收益相同,且两个参与人任意选择均衡对应的两个相应策略也是均衡(也对应着相同的收益)。
  • 二人零和博弈中,均衡是收益函数u的鞍点当且仅当均衡中是相应参与人的最佳策略,该点值是博弈的值。

④【库恩定理】每一个完全信息有限博弈都有至少一个纳什均衡。

⑤纳什定理的一般化

⑥扩展式表述博弈的纳什均衡

  • 同样的纯战略既可以截石位扩展式的,也可以解释为策略式的。不同之处在于,在扩展式表述博弈,参与人时相机行事,即“等待”博弈到达自己的信息集(包含一个或多个决策结)后再决定如何行动;在策略式表述博弈,参与人似乎是在博弈开始之前就制定出一个完全的相机行动计划,即“如果……发生,将选择……”。

  • 在扩展式表述博弈,所有n歌参与人的一个纯策略组合s=(s~i~,...,s~n~)决定了博弈树上的一个路径。
  • 每一个策略组合(也即博弈树的路径)决定了一个支付向量u=(u~1~,...,u~n~)。策略组合s*是扩展式博弈的一个纳什均衡,如果对于所有i,s*最大化u~i~(s~i~,s*~i~)(或如果自然行动的话,u~i~的期望值),即:

                                                                                                                          s_{i}^{*}\in \arg \max _{s_{i}\in S_{i}}u_{i}(s_{i},s_{-i}^{*}),∀i

注意,因为一个参与人的纳什均衡策略是假定其他参与人的策略为给定时的最优策略,所有参与人似乎是在同时选择策略,但这并不意味着在纳什均衡中,参与人一定是在同时选择行动。

  • 在扩展式表述博弈中,混合策略被称为“行为策略”以区别于策略式表述博弈的混合策略概念。行为策略是指参与人在每一个信息集上随机地选择行动。令∆(A(h~i~))为定义在行动集合A(h~i~)上的概率分布,b~i~为参与人i的一个行为策略,那么b~i~是笛卡尔积×~h~i~∈H~i~~∆(A(h~i~))中的一个元素。就是说,一个行为策略规定了对应每一个信息集的行动集合上的概率分布,且不同信息集上的概率分布是独立的。每一个行为策略组合b=(b~1~,...,b~n~)给出一个支付空间上的概率分布。b*=(b*~1~,...,b*~n~)是一个行为策略纳什均衡,如果没有任何参与人可以通过选择其他行动为策略增加自己的期望效用。

6.完全信息动态博弈

(1)特征

  • 完全信息是指自然不首先行动或自然的初始行动没有不确定性,并且自然的确定选择是参与人的公共知识。
  • 动态博弈是指参与人行动有先后顺序的博弈。

理论上说,动态博弈可以在策略的意义下转化为静态博弈,这时的策略就是相机选择行动的一个整体规则。但是一般用更能反映动态特征的扩展式方法来描述动态博弈,扩展式描述的本质就是图论中的树。

(2)纳什均衡延伸

【定理】一个有限完美信息博弈有一个纯策略纳什均衡。

可以使用动态规划的逆向归纳法证明上述定理。因为博弈是有限的,博弈树上一定存在一个最后的决策结的集合,在该决策结上行动的参与人将选择一个最大化自己的支付的行动;给定这个参与人的选择,倒数第二个决策结上的参与人将选择一个可行的行动最大化自己的支付;如此,直到初始结。倒推过程完成时得到一个路径,该路径给出每一个参与人一个特定的策略,所有这些策略构成一个纳什均衡。

  • 纳什均衡对一个参与人在非均衡信息集上的选择没有限制。但是,一个参与人在非均衡信息集的策略可以影响其他参与人在均衡信息集上的选择,因为后者在评价他们可使用的其他策略的价值时,不得不考虑如果它们引起原先的非均衡信息集达到的话,什么将发生。
  • 逆向归纳法实际上是重复剔除劣策略方法在扩展式表述博弈中的应用。
  • 上述逆向归纳法过程不适用于无限博弈和不完美信息博弈。无限博弈不存在最后一个决策结;不完美信息博弈的信息集不是单结的。

(3)子博弈精炼纳什均衡   

①子博弈

子博弈,直观的含义是原博弈的一部分,它本身也可以作为一个博弈进行分析,博弈树的一个子树所代表的博弈就是子博弈,子博弈的起始点是某个人选择行动的结点。包括这个结点及所有后续结点及枝及终结点之后的收益,构成了一个子博弈树,这个子博弈树所代表的博弈称为子博弈。子博弈要求博弈已进行的信息能给定这个子博弈确切的起点和初始信息。

  • 条件(1)是指一个子博弈必须从一个单结信息集开始。这一点意味着当且仅当决策者在原博弈中确切地直到博弈进入一个特定的决策结时,该决策结才能作为一个子博弈的初始结;如果一个信息集包含两个以上决策结,没有任何一个决策结可以作为子博弈的初始结。显然,一个完美信息博弈的每一个决策结都可以是一个子博弈(即每一个决策结和它后续结构成一个子博弈)。
  • 条件(2)是指,子博弈的信息集和支付向量都直接继承自原博弈,就是说,当且仅当x'和x''在原博弈中属于统一信息集时,它们在淄博一中才属于同一信息集;子博弈的支付函数只是原博弈支付函数留存在子博弈上的部分。
  • 条件(2)和条件(1)意味着子博弈不能切割原博弈的信息集。
  • 要求子博弈满足上述两个条件的目的是保证子博弈对应于原博弈中可能出现的情况。如果不满足这两个条件,参与人在原博弈中不知道的信息在子博弈中就变成知道的信息,从子博弈中得出的结论对原博弈就没有意义。有了上述两个条件,当原博弈进入某个子博弈时,支付函数有着很好地定义,可以检查一个特定的纳什均衡是否在子博弈上也构成一个纳什均衡,从而检查这个纳什均衡是否是一个合理的结果。
  • 习惯上,任何博弈本身称为自身的一个子博弈。

②子博弈精炼纳什均衡

  • 混合战略(行为策略)子博弈精炼纳什均衡可以类似定义。一个策略组合是子博弈精炼纳什均衡,当且仅当它在每一个子博弈(包括原博弈)上都构成一个纳什均衡。如果整个博弈是唯一的子博弈,纳什均衡与子博弈精炼纳什均衡是相同的;如果有其他子博弈存在,有些纳什均衡可能不构成子博弈精炼纳什均衡。
  • 如果一个博弈有几个子博弈,一个特定的纳什均衡决定了原博弈树上唯一的一条路径,这条路径称为“均衡路径”,博弈树上的其他路径称为非均衡路径。纳什均衡只要求均衡策略在均衡路径的决策结上式最优的。“在每一个子博弈上给出纳什均衡”意味着,构成子博弈精炼纳什均衡的策略不仅在均衡路径的决策结上是最优的,而且在非均衡路径的决策结上也是最优的。这是纳什均衡与子博弈纳什均衡的实质区别所在。博弈论专家常常使用序贯理性指不论过去发生了什么,参与人应该在博弈的每一个时点上最优化自己的决策。子博弈精炼纳什均衡要求的正是参与人应该是序贯理性的。

(4)用逆向归纳法求解子博弈精炼纳什均衡

对于有限完美信息博弈,逆向归纳法是求解子博弈精炼纳什均衡的最简便方法。因为有限完美信息博弈的每一个决策结都是一个单独的信息集,每一个决策结都可以是一个子博弈。

对逆向归纳法过程作如下形式化:

假定博弈有两个阶段,第一个阶段参与人1行动,第二阶段参与人2行动,并且2在行动前观测到1的选择。令A~1~是参与人1的行动空间,A~2~是参与人2的行动空间。当博弈进入第二阶段,给定参与人1在第一阶段的选择a~1~∈A~1~,参与人2面临的问题是:

                                                                                                                                    \max _{a_{2}\in A_{2}}u_{2}(a_{1},a_{2})

显然参与人2的最优选择a*~2~依赖于参与人1的选择a~1~。用a*~2~=R~2~(a~1~)代表上述最优化问题的解(即2的反应函数)。因为参与人1应该预测到参与人2在博弈的第二阶段将按a*~2~=R~2~(a~1~)的规则行动,参与人1在第一阶段面里的问题是:

                                                                                                                                    \max _{a_{1}\in A_{1}}u_{1}(a_{1},R_{2}(a_{1}))

令上述问题的最优解为a*~1~。那么,这个博弈的子博弈精炼纳什均衡为(a*~1~,R~2~(a~1~)),均衡结果为(a*~1~,R~2~(a*~1~))。(a*~1~,R~2~(a~1~))是一个精炼均衡,因为a*~2~=R~2~(a~1~)在博弈的第二阶段是最优的;除a*~2~=R~2~(a~1~)之外,任何其他的行为规则都不满足精炼均衡的要求。

用逆向归纳法求解子博弈精炼纳什均衡的过程,实质是重复剔除劣战略过程在扩展式表述博弈上的扩展:从最后一个决策结开始依次剔除每个子博弈的劣战略,最后生存下来的策略构成精炼纳什均衡。如同重复剔除的占优均衡要求“所有参与人是理性的”是共同知识一样,用逆向归纳法求解均衡也要求“所有参与人时理性的”是共同知识。

根据定义,逆向归纳法只适用于完美信息博弈。但是,有些费完美信息博弈也可以运用逆向归纳法的逻辑。即使博弈的最后阶段并没有占优策略,逆向归纳法的逻辑也有助于找出精炼均衡。子博弈精炼均衡逻辑的推论:用纳什均衡支付向量代替子博弈,然后考虑这个简化博弈的纳什均衡。

(5)承诺行动与子博弈精炼纳什均衡

有些纳什均衡之所以不是精炼均衡,是因为它们包含了不可置信的威胁战略。这意味着,如果参与人能在博弈之前采取某种措施改变自己的行动空间或支付函数,原来不可置信的威胁就可能变得可置信,博弈的精炼均衡就会相应改变。将这些为改变博弈结果而采取的措施称为“承诺行动”。

有些情况下,一个参与人可以通过减少自己的选择机会使自己受益,原因在于保证自己不选择某些行动可以改变对手的最优选择。如果一个承诺使该行动完全没有可能,称为完全承诺;如果一个承诺只是增加某个行动的成本而不是使该行动完全没有可能,称为不完全承诺。

参与人为承诺行动支付的成本称为“积淀成本”。在有些博弈中,承诺行动可以简单地通过“先下手为强”的办法而达到。

(6)参与人的理性与子博弈精炼纳什均衡

  • 逆向归纳法理论要求“所有参与人是理性的”是所有参与人的共同知识。在这一要求下,用你行归纳及子博弈精炼均衡给出的解是可以接受的,并显得非常直观。
  • 如果有许多参与人或每个参与人有多次行动机会,实际上会把博弈的结果与博弈的结构都作为参与人的收益的有机组成部分,事实上是对外生收益函数这一假设的挑战。参与人越多(从而倒推链条越长),共同知识的要求就越难以满足。这可以称为结构不稳定问题。
  • 逆向归纳法理论没有为当某些未预料到的事情出现时参与人如何形成他们的预期提供解释。这使得逆向归纳法的逻辑受到怀疑。

(7)重复博弈和无名氏定理

序贯博弈”是指,从后一个决策结开始的子博弈不同于前一个决策结开始的子博弈,或者说,同样结构的子博弈只出现一次,这样的动态博弈。

重复博弈”是指,同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈”,这样的动态博弈。

重复博弈有下列3项基本特征:

  1. 阶段博弈之间没有“物质上”的联系,即,前一阶段的博弈不改变后一阶段博弈的结构
  2. 所有参与人都观测到博弈过去的历史
  3. 参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。

注意,在每个阶段博弈,参与人可能同时行动,也可能不同时行动。在后一种情况下,每个阶段博弈本身就是一个动态博弈。因此,重复博弈可能是不完美信息博弈,也可能是完美信息博弈。

因为其他参与人过去行动的历史是观测到的,一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史,因此,参与人在重复博弈中的策略空间远远大于且复杂于在每一个阶段博弈中的策略空间。这一点意味着,重复博弈可能带来一些“额外的”均衡结果,这些均衡结果在一次博弈中是从来不会出现的。

影响重复博弈均衡结果的主要原因是博弈重复的次数和信息的完备性。重复次数的重要性来自于参与人在短期利益和长远利益之间的权衡。此外,影响均衡结果的另一个重要因素是信息的完备性。简单地说,当一个参与人的支付函数(特征)不为其他参与人所知时,该参与人可能有积极性建立一个“好”声誉以换取长远利益。

①有限次重复博弈

【定理】令G是阶段博弈,G(T)是G重复T次的重复博弈(T<∞)。那么,如果G有唯一的纳什均衡,重复博弈G(T)的唯一子博弈精炼纳什均衡结果是阶段博弈G的纳什均衡重复T次(即每个阶段博弈出现的都是一次性博弈的均衡结果)。

注意,单阶段博弈纳什均衡的“唯一性”是一个重要的条件。

②无限次重复博弈和无名氏定理

简单地说,无名氏定理是指,在无限次重复博弈中,如果参与人有足够的耐心(即δ足够大),那么,任何满足个人理性的可行的支付向量都可以通过一个特定的子博弈精炼均衡得到。在上述定理中,阶段博弈的纳什均衡a*可能是混合策略均衡也可能是纯策略均衡;由a*决定的支付向量e=(e~1~,...,e~n~)是达到任何精炼均衡结果v的惩罚点(或称为纳什威胁点)。

为说明可行支付集合V,首先要说明重复博弈的支付函数。之前,是使用未来支付的贴现值之和来代表支付函数。更为便捷的办法是用贴现值的平均值来代表支付函数。若每个阶段的支付均为π,则称π为平均支付值。假定贴心因子δ,那么,无穷序列π,π,...的贴现值之和为π/(1-δ);无穷序列π~1~,π~2~,...的贴现值之和为

                                                                                                          x=\sum_{t=1}^{\infty }\delta ^{t-1}\pi _{t}

要使π称为无穷序列π~1~,π~2~,...的平均支付,要求

                                                                                               \frac{\pi }{1-\delta }=\sum_{t=1}^{\infty }\delta ^{t-1}\pi_{t}

因此

                   \pi =(1-\delta )\sum_{t=1}^{\infty }\delta ^{t-1}\pi_{t}

就是说,平均支付是贴现值之和的标准化(标准化因子是1-δ)。使用平均支付的优势在于可以直接与阶段博弈支付比较,因为平均支付用同样的单位度量阶段博弈支付和重复博弈支付。随后,可以定义可行支付集合的概念。v=(v~1~,v~2~,...,v~n~)称为一个可行支付向量,如果它是阶段博弈G的纯策略支付的凸组合(即加权平均),所有可行支付向量构成可行支付集合V。

在无名氏定理中,其他参与人惩罚一个不合作者的办法是转向阶段博弈纳什均衡a*。但纳什均衡支付并不一定是博弈中一个参与人会受到的最大惩罚。一个参与人收到的最大城府决定于他的保留支付;保留支付定义为:

就是说,保留支付是其他参与人试图给参与人i最大惩罚时参与人i能保证自己得到的最大支付,因而又称为参与人i的“最小最大支付”。显然,参与人i的保留支付不会大于纳什均衡支付,否则的话,a*不是参与人i的最优选择(与纳什均衡矛盾)。

大于保留支付的支付称为个人理性支付。这个概念的含义是,如果要一个人在无限次重复博弈中有任何兴趣“合作”的话,他从“合作”中得到的支付不应该小于他的保留支付。每一个个人理性可行支付向量都可以在精炼均衡中达到。

根据无名氏定理,只有当δ足够接近1时,帕累托合作均衡结果才会出现。冷酷战略是子博弈精炼纳什均衡。阿伯罗证明,冷酷战略并不是保证最大合作的策略。最大合作策略是使用最严厉的可信惩罚。“可信惩罚”是指惩罚策略本身必须是一个子博弈精炼均衡;“最严厉”是指使不合作者得到最低可能的支付。

许多讨论中将δ作为代表参与人时间偏好的变量,事实上,δ也可以代表博弈阶段结束的可能性。假定博弈在每个阶段结束的概率为p。那么,博弈到达t阶段的概率为(1-p)^(t-1)^,参与人在t阶段的期望支付为(1-p)^(t-1)^π~t~,贴现值为δ^(t-1)^(1-p)^(t-1)^π~t~。若令δ ̃=δ(1-p),无名氏定理可以陈述为:如果博弈重复无限次,或者每次结束的概率足够小,如果δ充分接近于1,任何个人理性可行支付向量都可以作为子博弈精炼纳什均衡结果出现。即,无限次重复博弈可能有无穷多精炼均衡结果。因此,精炼均衡的概念并不能帮助走出多重均衡的困境。

③重复博弈的一些扩张形式

以上讨论,一直假定参与人过去的行为是共同信息,即每个参与人都准确地观测到其他参与人过去选择了什么。这个假设在许多情况下是不满足的。如果需求函数是不确定的并且不可观测,由推断得到的信息就是不完美的。重复博弈的研究可以在不同的假设条件下开展,无名氏定理可以扩展到一部分参与人不固定的重复博弈上。重复博弈的其他变种包括叠代博弈、随机相遇博弈等。(在合作困境优先重复实验研究中,有一种简明的策略:第一次选择合作,第i+1次,依据对方第i次的选择,如果对方第i次选择合作,则第i+1次回报以合作。如果对方第i次选择不合作,则第i+1次也选择不合作。)

7.不完全信息静态博弈

(1)类型区分

不完全信息是完全信息的逻辑逆,是指至少有一个参与人不知道自然初始选择的行动。不完全信息实质上就是博弈结构中本身就带有不确定性的博弈类型。依据对自然信息的了解程度进行区分,一个极端是完全信息,另一个极端是没有自然选择的信息。在这两个极端之间的不完全信息,一方面是指有一部分信息,另一方面是指又不具有能确定博弈结构的足够信息。有下面几种可能的不完全信息:

  • 参与人知道自然的选择是一个随机变量,并且其分布函数是公共知识;
  • 参与人知道自然的选择使随机的,但分布函数不是公共知识;
  • 参与人知道自然的选择不会出现唯一的结果。但到底有些什么结果不清楚,也许对一些状态有一些了解;
  • 参与人只知道自然选择是不确定的,此外别无所知。

(2)定义

经典博弈中,实际上只能处理靠近完全信息的那类不完全信息模型。在经典博弈论中已经形成共识,并已有公认分析方法的不完全信息是指如下定义的不完全信息:自然的首先选择是一个关于参与人类型的随机变量,并且它的分布函数是参与人的共同知识。

对这种不完全信息,给出条件:自然选择已知时,就意味着称为一个完全信息问题。不同的选择意味着一系列完全信息问题。当然参与人不变,行动集也不变。作为一种处理技巧,可以把自然选择的随机信息加到参与人的支付函数上,即参与人的收支函数是在众多收益函数中摇号出来的。同样也可以理解成参与人类型的随机性。

(3)海萨尼转换

海萨尼(Harsanyi)提出的处理不完美信息博弈的方法是,引入一个虚拟的参与人——“自然”;自然首先行动决定参与人的特征,参与人知道自己的特征,其他参与人不知道。这样,不完全信息博弈就转换为完全但不完美信息博弈,可以使用标准的分析技术进行分析。这就是所谓的“海萨尼转换”。自然在博弈开始选择的包括参与人的策略空间、信息集、支付函数等。一般,将一个参与人所拥有的所有私人信息(即所有不是共同知识的信息)称为它的类型(type)。注意,根据这个定义,甚至允许一个参与人不知道其他参与人是否知道自己的类型。因此,参与人的类型是其个人特征的一个完备描述。因为绝大多数博弈中,参与人的特征由支付函数完全决定,一般将参与人的支付函数等同于他的类型。不完全信息意味着,至少有一个参与人有多个类型。(海萨尼转换讲解补充:海萨尼引入一个虚拟的参与人“自然”。博弈的各个参与人分别在自然管理的不同房间内,同一房间的参与人具有不同的类型,是某一编号参与人的候选人。自然采用随机规则选出一个作为参与人i,让这个参与人来参加博弈。这个参与人自己知道自己的收益函数,自然也采用随机选择的规则,参加博弈的参与人具有了自然对参与人进行随机选择的公共知识。)

上面论述中实际上是以离散型随机变量为基础的,许多时候,类型可能是一个连续型随机变量。复杂情况下,有时需用密度函数,更复杂情况可用概率测度描述。

(4)贝叶斯纳什均衡

①不完全信息静态博弈的策略式表述

贝叶斯纳什均衡是完全信息静态博弈纳什均衡概念在不完全信息静态博弈上的扩展。不完全信息静态博弈又称为静态贝叶斯博弈。

为了定义贝叶斯均衡,首先要说明参与人的策略空间和支付函数。如同在完全信息静态博弈中一样,在不完全信息静态博弈中,所有参与人同时行动,参与人i的策略空间S~i~等同于他的行动空间A~i~。但与完全信息静态博弈不同的是,在不完全信息静态博弈中,参与人i的行动空间A~i~可能依赖于他的类型θ~i~。即,行动空间是类型依存的。类似的,参与人i的支付函数也是类型依存的。注意,用海萨尼转换的不完全信息是一种类型的不完全信息,并非全部类型的不完全信息,也可以称为海萨尼不完全信息。以海萨尼不完全信息为基础的n人静态博弈,一般称为n人静态贝叶斯博弈。可以用下列策略式表述代表:

静态贝叶斯博弈的过程描述如下:

  • 自然选择类型向量θ=(θ~1~,…,θ~n~),其中θ~i~∈Θ~i~,自然按P(θ~1~,…,θ~n~)的随机规律选择参与人i的类型θ~i~,参与人i观测到θ~i~,但参与人j(≠i)观测不到θ~i~,利用公共知识p~i~(θ~-i~|θ~i~)的有关于其他参与人类型的概率信息;

  • n个参与人同时选择行动a=(a~1~,...,a~n~),其中a~i~∈A~i~(θ~i~);

  • 参与人i的收益为u~i~(a~1~,…,a~n~;θ~i~)

上述定义包含一种可能:参与人j可能具有参与人i类型的某种信息。如果所有参与人的类型空间只包含一个元素,即对于所有i,Θ={θ~i~},不完全信息静态博弈就退化为完全信息静态博弈。换言之,完全信息静态博弈可以理解为不完全信息静态博弈的一个特例(即分布函数P是退化的)。如果参与人的类型是完全相关的,当参与人i观测到自己的类型时也就知道了其他参与人的类型,博弈也是完全信息的。一般假定参与人的类型是相互独立的。

注意,假定A~i~(θ~i~)和u~i~(a~i~,a~-i~;θ~i~)本身是共同知识;即尽管其他参与人并不知道参与人i的类型θ~i~,但他(们)直到参与人i的策略空间和支付函数是如何依赖于他的类型的;或者,如果他(们)知道θ~i~的话,也就知道A~i~(.)和u~i~(.)。当我们说其他参与人不知道参与人i的支付函数时,准确地讲是指,其他参与人不知道参与人i的支付函数究竟是u~i~(a~i~,a~-i~;θ~i~)还是u~i~(a~i~,a~-i~;θ'~i~)(这里,θ~i~∈Θ~i~,θ'~i~∈Θ'~i~,θ~i~≠θ'~i~)。

给定参与人i只知道自己的类型θ'~i~而不知道其他参与人的类型θ~-i~,参与人i将选择a~i~(θ~i~)最大化自己的期望效用。参与人i的期望效用函数定义如下:

                                                                                                                                                                                                    v_{i}=\sum_{\theta _{-i}} p_{i}( \theta _{-i}| \theta _{i})u_{i}(a_{i}(\theta _{i}),a_{-i}(\theta _{-i});\theta _{i},\theta _{-i})

②静态贝叶斯纳什均衡

混合策略贝叶斯纳什均衡的概念可以类似地定义。

与纯策略纳什均衡不同的是,在贝叶斯均衡中,参与人i只知道具有类型θ~i~的参与人j将选择a~j~(θ~j~)但不知道θ~j~,因此,即使纯策略选择也必须取支付函数的期望值。但如同纳什均衡一样,贝叶斯均衡在本质上是一个一致性预测,即每个参与人i都能正确地预测到具体类型θ~j~的参与人将选择a*~j~(θ~j~),因此参与人i有关其他参与人的信念(条件概率)的信念并不进入均衡的定义,唯一重要的是参与人i自己的信念p~i~和其他参与人的类型依存策略a~-i~(θ~-i~)。但在不完全信息动态博弈中,参与人有关其他参与人信念的信念是重要的,因为此时,一个参与人可以通过观测其他参与人的行动来修正信念或推断后者的类型。

③贝叶斯博弈与混合策略均衡

海萨尼证明,完全信息情况下的混合策略均衡可以截石位不完全信息情况下纯策略均衡的极限。混合策略纳什均衡的本质特征不在于参与人j随机地选择行动,而在于参与人i不能确定参与人j将选择什么纯策略,这种不确定性可能来自参与人i不知道参与人j的类型。因为,在贝叶斯博弈中,参与人的策略是类型依存的,且“自然”是通过选择参与人的类型制造了不确定性。在不完全信息下,每一个参与人在选择自己的策略时,似乎面对的是一个选择混合策略的对手,尽管每个参与人事实上选择的都是纯策略。因为完全信息只是一种理性状态(现实中,每个人对其他人的目标函数总不可能完全了解)。海萨尼的论点表明,很难根据选择的随机性就认为混合策略是不合理的。

(5)机制设计

①贝叶斯博弈和机制设计

机制设计是一种特殊的不完全信息博弈,是一种把博弈结构设计与博弈过程分析作为一个整体所引出的问题。委托——代理理论本质上就是机制设计的问题。委托人选择机制,而不是使用一个给定的机制,这是机制设计的一个基本特征。从这个意义上,委托人(principal)是机制设计者,代理人(agent)是在给定机制下愿意参加博弈的人。委托人设计机制的目的是最大化自己的期望效用函数,因此,他面临两个约束。

委托人设计机制时要考虑的第一个约束是,如果要一个理性的代理人有任何兴趣接受委托人设计的机制(从而参加博弈)的话,代理人在该机制下得到的期望效用必须不小于他在不接受这个机制时得到的最大期望效用。这个约束被称为参与约束或个人理性约束。代理人在博弈之外能得到的最大期望效用称为代理人的保留效用。因为当代理人参与博弈时他就失去了博弈之外的机会,因而保留效用又称为机会成本。委托人设计机制时要考虑的第二个约束是,给定委托人不知道代理人的类型的情况下,代理人在所设计的机制下必须有积极性选择委托人希望他选择的行动。显然,只有当代理人选择委托人所希望选择的行动时得到的期望效用不小于他选择其他行动时得到的期望效用的时候,代理人才有积极性选择委托人所希望的行动。这个约束被称为激励相容约束。满足参与约束的机制称为可行机制;满足激励相容约束的机制称为可实施机制。如果一个机制满足参与约束和激励相容约束,称这个机制是可行的可实施机制。委托人的问题是选择一个可行的可实施机制(可能有多个)以最大化他的期望效用。

典型的机制设计是一个三阶段不完全信息博弈。在第一阶段,委托人设计一个“机制”、“激励方案”。“机制”是一个博弈规则(或简称博弈),根据这个规则,代理人发出信号(message),实现的信号决定配置结果。在第二阶段,代理人同时选择接受或不接受委托人设计的机制。如果代理人选择不接受,他得到外生的保留效用。在第三阶段,接受机制的代理人根据机制的规定进行博弈。

根绝梅耶森的显示原理(revelation principle),为了获得最大的期望效用,委托人只须考虑“直接机制”(“直接”是指代理人的策略空间等同于类型空间);在第二阶段,所有代理人都接受所涉及的机制;在第三阶段,所有代理人同时如实地报告自己的类型。这就意味着,委托人可通过代理人之间的静态贝叶斯博弈来获得最大的期望效用。

②机制设计和显示原理

机制设计问题一般可以描述成如下形式:

假定有n+1个参与人,其中i=0代表委托人,i=1,2,...,n代表委托人,委托人没有私人信息,代理人的类型θ~i~是私人信息。假定类型空间Θ≡×~i~Θ~i~而概率分布P(θ~1~,…,θ~n~)是公共知识。委托人的设计任务是决定一个配置函数y=(x(.),t(.)),其中x是决策向量,t=(t~1~,...,t~n~)是从委托人到代理人的转移支付向量(t~i~可能是正的也有可能是负的,依情况而定)。假定x属于一个闭的有界非空凸集X∈R^k^,X足够大使得内点解存在。

假定每个参与人i(i=0,1,..,n)有一个冯诺依曼-摩根斯特恩效用函数u~i~(y,θ),u~0~是t~i~的严格递减函数,u~i~(i≠0)是t~i~的严格递增函数,所有的u~i~都是二阶可微的。(在几乎所有的应用例子中,代理人的效用只依赖于他自己的转移支付t~i~和自己的类型θ~i~,而不依赖于其他代理人的转移支付t~-i~和其他代理人的类型θ~-i~。但上述描述不失一般性。)

一个机制m给每个代理人规定一个信号空间M~i~,如果代理人i在第二阶段接受机制,他就在第三阶段选择μ~i~∈M~i~。所有代理人的选择信号μ=(μ~1~,...,μ~n~)共同决定配置结果y=(x,t)。

用    y_{m}:M\rightarrow Y=X\times R^{n}   代表配置函数。因为代理人的类型是私人信息,配置函数y=(x,t)只能通过代理人发出的信号依赖于代理人的类型。但,不论委托人设计什么机制,配置函数最终依赖于搭理人的类型向量 θ=(θ~1~,…,θ~n~)。给定类型依存配置{y(μ(θ))}~θ∈Θ~,具有类型θ~i~的代理人i的期望效用函数是  

                                                              U_{i}(\theta _{i})\equiv =E_{\theta _{-i}}[u_{i}(y(\mu (\theta_{i}, \theta _{-i})),\theta _{i},\theta _{-i})|\theta _{i}]

委托人的期望效用函数                           U_{0}(\theta )=E_{\theta }u_{0}(y(\mu (\theta )),\theta )

委托人可以选择任何一个满足代理人参与约束和激励约束的机制。但所有可选择的机制可以划分为两类,一类是直接机制,另一类是间接机制。在直接机制中,信号空间等于类型空间,即M~i~=Θ~i~,i=1,...,n。所有信号空间不等于类型空间的机制都是间接机制。

 

梅耶森的显示原理说的是,任何一个机制所能达到的配置结果都可以通过一个直接机制实现;因此,委托人可以只考虑直接机制的设计。

8.不完全信息动态博弈

(1)模型的特征描述

在完全信息动态博弈中,主要讨论的是某个参与人行动前,有足够的信息来确定已经行动的参与人选择了什么行动,这种信息结构称为完美信息。当博弈的参与人只行动一次,后行动者没有任何先行者的信息时,可以把这种情况等效于静态博弈。不完美信息指的是这两种背景之间的情况,即有一部分已行动者所选行动的信息,但又不能完全确定先行者选择了什么。不完美信息是完美信息的逻辑逆。在不完美信息下,后行动者不能判断几个决策结中具体是哪一个,几个决策结都有可能。而且,同样是不完美信息,信息的含量有可能有很大的差异,不完美信息只是排除完美的情况。信息的形式千差万别,不同形式的信息,可能在结果的作用上是等效的。我们用信息作用后果来标记信息,而忽略信息的具体特征。信息落实到博弈中,就是关于决策结是什么的描述。完美信息是指决策结是单一结的情况,不完美信息就是决策结不是单结。在一组信息下,决策结的某个集合中每一个结都有可能是行动的后果的决策结集合称为信息集。

不完全信息是指自然首先选择,并且至少有一个参与人不知道自然的确切选择。因此,不完全信息动态博弈在博弈树中,起点是自然的选择,并强调了自然首先选择;而至少有一人不知道自然选择的假设意味着,自然下的决策结至少对一个参与人是不能确切肯定的。因而,不完全信息必然是不完美信息。然而,不完美信息不能等同于不完全信息,即不完全信息是一类不完美信息。现在的博弈模型中,不完全信息主要是指自然首先选择参与人类型,而且参与人自己知道自己的真实类型,其他参与人不能确切知道,但有关于参与人类型的概率分布的公共知识。在这种情况下,实际上是各个参与人对自然选的信息了解具有不对称性。

自然首先选择的信息对参与人是对称的情况,不必把它当成不完全信息,可以进行等效简化处理。这种情况可以理解为确定类型的参与人在不确定的环境下的博弈,自然选择了博弈的环境。假如具有了各种环境类型的概率分布信息,这时可用期望收益替代各种策略组合下的收益的处理。因此逻辑上可以把自然的选择放在各个参与人的选择之后,而不影响分析结果。这样做的目的是把自然的选择尽可能简化,以避免不必要的复杂性。即,如果建模过程能够避免的不完全信息应尽量避免。

(2)信息集

不完全信息动态博弈的描述仍然可以应用博弈树的方法,然而由于不完全信息的特征,博弈树也需要引入能够反映不完全信息的要素。信息集是指某一参与人在某一阶段的行动时由博弈历史信息反映的那一组都有可能是真实位置的决策结的集合。所以完全信息时,每个信息集是单结,而不完全信息时,至少有一个信息集有两个以上的决策结。在构造不完全信息动态博弈的博弈树时,首先可以依据动态的特征,按完全信息的情况先确定博弈树,再此博弈树的决策结上依据不完全信息标记出信息集。一般用虚线连接属于同一信息集的决策结。信息集中多决策结的情况,需区分参与人无法得到充分地信息与参与人没有足够记忆而导致的信息不充分的差别。如果一个参与人无任何记忆法,这可能会失去分析的意义;另一个极端是完美回忆,即过去的历史出现的信息具有完整的记忆。在博弈分析中对参与人足够理性的假设下,可以认为参与人具有完美回忆的能力。

在完美回忆的情况下,如果某一信息集有h个决策结,则这h个决策结必是某一参与人在同一阶段的决策结。因为过去的历史包含了已完成的阶段,所以不同阶段的决策结不会混同。再者,信息集是同一阶段所有决策结的分类,即每一个决策结必然属于某一个信息集,而且信息集互不相交。因为博弈的历史总不能达到某一决策结时,这一决策结在完全信息中也不出现,而如果某两个信息集有共同的决策结,则这两个信息集中的所有决策结都不可区分,所以必为同一信息集。此外,可以假设在同一信息集的各个决策结中,参与人的行动空间相同。因为具有同样的信息,行动空间差异无法建立依据。

有了信息集的概念,可以把静态博弈作为动态博弈来处理,用带有信息集的博弈树来表示静态博弈。

(3)精炼贝叶斯纳什均衡

①基本思路

由于动态博弈中先行动者的行动不能完全观察,且涉及一个参与人多次行动时,会涉及很复杂的情况。因此支队经典范围的不完全信息动态博弈进行讨论,主要是指以下特征的动态博弈:

  1. 自然首先选择了参与人的类型,参与人知道自己的类型,不确知其他人的类型
  2. 参与人在自然选择后有行动的先后顺序
  3. 后行动的参与人可以观察到先行动的参与人的行动选择

这类博弈,信息不完美唯一的来源是自然的选择。它不包括其他参与人的行动只有部分信息的情况。在不完全信息动态博弈中,“自然”首先选择参与人的类型,参与人自己知道,其他参与人不知道;在自然选择后,参与人开始行动,参与人的行动有先有后,后行动者能观测到先行动者的行动,但不能观测到先行动者的类型。但是,因为参与人的行动是类型依存的,每个参与人的行动都传递着有关自己类型的某种信息,后行动者可以通过观察先行动者所选择的行动来推断其类型或修正对其类型的先验信念(概率分布),然后选择自己的最优行动。先行动者预测到自己的行动将被后行动者所利用,就会设法选择传递对自己最有利的信息,避免传递对自己不利的信息。因此,博弈过程不仅是参与人选择行动的过程,而且是参与人不断修正信念的过程。

精炼贝叶斯均衡是不完全信息动态博弈均衡的基本均衡概念,它是完全信息动态博弈子博弈精炼纳什均衡和不完全信息静态博弈贝叶斯均衡的结合。精炼贝叶斯均衡要求,给定有关其他参与人的类型的信息,参与人的战略在每一个信息集开始的“后续博弈”上构成贝叶斯均衡;并且,在所有可能的情况下,参与人使用贝叶斯法则修正有关其他参与人的类型的信念。精炼纳什均衡要求均衡策略不仅在整个博弈上构成纳什均衡,而且要求在每个子博弈上构成纳什均衡。如果将从每一个信息集开始的博弈的剩余部分称为一个“后续博弈”(不同于子博弈,因为子博弈必须开始于单结信息集,并且不能切割信息集),一个“合理”的均衡应该满足如下要求:给定每一个参与人有关其他参与人的后验信念,参与人的策略组合在每一个后续博弈上构成贝叶斯均衡。但要求策略组合在每一个后续博弈上构成贝叶斯均衡仍然没有剔除部分不合理行为。剔除这种不合理行为的方式是,假定参与人(在所有可能的情况下)根据贝叶斯法则修正先验信念;并且,每个参与人都假定其他参与人选择的是均衡策略。

精炼贝叶斯均衡是贝叶斯均衡、子博弈精炼均衡和贝叶斯推断的结合,它要求:

  1. 在每一个信息集上,决策者必须有一个定义在属于该信息及的所有决策结上的一个概率分布(信念)
  2. 给定该信息及上的概率分布和其他参与人的后续策略,参与人的行动必须是最优的
  3. 每一个参与人根据贝叶斯法则和均衡策略修正后验概率

②贝叶斯法则

统计学上,修正之前的判断称为“先验概率”,修正之后的判断称为“后验概率”。贝叶斯法则正是人们根据新的信息从先验概率得到后验概率的基本方法。贝叶斯法则并不是一个技术性法则,而是人们修正信念的唯一合理方法。以不完全信息博弈为例说明贝叶斯法则。

假定参与人的类型是独立分布的。假定参与人i有K个可能的类型,有H个可能的行动。分别用θ^k^和a^h^代表一个特定的类型和一个特定的行动(因为此时只考虑一个参与人,所以省略了下标)。

假定i属于类型θ^k^的先验概率是                      p(\theta ^{k})\geq 0\: ,\: \sum_{k=1}^{K}p(\theta ^{k})=1

给定i属于类型θ^k^,i选a^h^的条件概率为       p(a^{h}|\theta ^{k})\: ,\: \sum_{h}p(a^{h}|\theta ^{k})=1

那么,i选择a^h^的边缘概率是                          Prob\left \{ a^{h} \right \}=p(a^{h}|\theta ^{1})p(\theta ^{1})+...+p(a^{h}|\theta ^{K})p(\theta ^{K})=\sum_{k=1}^{K}p(a^{h}|\theta ^{k})p(\theta ^{k})

即参与人i选择行动a^h^的“总”概率是每一种类型的i选择a^h^的条件概率p(a^h^|θ^k^)的加权平均,权数是他属于每种类型的先验概率p(θ^k^)。

使用Prob{θ^k^|a^h^}代表给定a^h^时i属于类型θ^k^的后验概率。根据概率公式                               Prob\left \{ a^{h},\theta ^{k} \right \}\equiv p(a^{h}|\theta ^{k})p(\theta ^{k})\equiv Prob\left \{ \theta ^{k}|a^{h} \right \}Prob\left \{ a^{h} \right \}

即i属于θ^k^并选择a^h^的联合概率等于i属于θ^k^的先验概率乘以θ^k^类型的参与人选择a^h^的概率,或等于i选择a^h^的总概率乘以给定a^h^情况下i属于θ^k^的后验概率。因此,贝叶斯法则为:

                                                                                                                                                              Prob\left \{ \theta ^{k}|a^{h} \right \}\equiv \frac{p(a^{h}|\theta^{k})p(\theta ^{k})}{Prob\left \{ a^{h} \right \}}\equiv \frac{p(a^{h}|\theta^{k})p(\theta ^{k})}{ \sum_{j=1}^{K}p(a^{h}|\theta ^{j})p(\theta ^{j})}

精炼贝叶斯均衡假定参与人是根据贝叶斯法则修正先验概率的。不过,贝叶斯法则要求Prob{a^h^}>0,即参与人i必须以正的概率选择a^h^,否则,后验概率没有定义。如果Prob{a^h^}=0,我们允许Prob{θ^k^|a^h^}在[0,1]区间取任何值,只要所取的值与均衡策略相容。在动态博弈中,Prob{a^h^}=0对应的是非均衡路径上的信息集。

③精炼贝叶斯均衡

一般,对不完全信息动态博弈,需要讨论适合它的均衡概念。均衡策略应该是在任何信息集为始点的后面的博弈过程中,在后验概率分布下的期望收益是最优的。

在假定自然对参与人的类型的分布是公共知识,而先行者的行动是可观察的条件下,每一个信息集中的决策结,虽然不能具体确定是哪一个决策结,但是可以产生信息集中决策结的概率分布。运用静态贝叶斯博弈中的方法,可以要求在后验概率下的期望收益最大化。实际上,对参与人类型的后验概率或后验信念本质上就是各个信息集中各个决策结的后验概率分布。因此,信息集上的信念的确定意味着对类型的后验信念的确定。用博弈已进行的行动选择来修正参与人的类型的判断时,如果前面参与人的行动不是理性的选择,可能无法运用已进行的博弈的信息,找不到利用信息的方法。所以需限定在理性的行动与理性的信息运用的基础上来讨论均衡问题。

理性行动假设下,某些信息集不会出现,即某些信息集在非均衡路径上。但分析时,策略要对任一信息集作为逻辑起点的分析有意义。贝叶斯公式本身无法确定非均衡路径上信息集中决策结的概率分布,因为非均衡路径上的信息集出现的概率为零,即贝叶斯公式的分母为零。因此,作为附加要求,相应的参与人对非均衡路径上的信息集要规定与战略相容的后验概率。这样,在每一个信息集上,都有了处于哪个决策结的概率分布,而这种分布是经过推断及主观观念规定的。所有信息集上的后验概率,称为信念体系。

(4)不完美信息博弈的均衡

不完全信息动态博弈是一种不完美信息动态博弈,然而信息不完美可能是观察不到先行动者的行动造成的。但在引入信息集的概念后,这种差异在分析上并不引起更多的困难,因为参与人类型的后验概率等价于信息集中处于哪个决策结的概率,所以后验信念落实到信息集之后不完全信息与不完美信息的差别就不重要了。对不完美信息,精炼贝叶斯均衡的概念仍然是有意义的。

精炼贝叶斯均衡要求:

  1. 每一个参与人的信息集上有一个概率分布

  2. 给定概率分布和其他参与人的选择,每个参与人的策略是最优的

  3. 概率分布是使用贝叶斯法则从最优策略和观测到的行动得到的(在可能的情况下)。

在不完全信息博弈中,参与人i根据观测到的参与人j的行动a~j~和参与人j的最优策略s*~j~(θ~j~)使用贝叶斯法则修正对j的类型θ~j~的信念,但在完全但不完美信息博弈中,参与人i观测不到参与人j的行动。在不完美信息博弈中,参与人i观测到的是博弈是否进入自己的信息集,要修正的是自己处于该信息集的每一个决策结的概率。

尽管贝叶斯法则在非均衡路径上没有定义,但如何规定非均衡路径上的后验概率是事关重要的。事实上,对精炼贝叶斯均衡再精炼的目的恰恰是对非均衡路径上的后验概率进行限制。

(5)信号博弈

信号传递博弈是一种比较简单但有广泛应用意义的不完全信息动态博弈。

①信号博弈的机构

信号博弈中有两个参与人,参与人1的类型是私人信息,他发送信号,称为信号发送者;参与人2的类型是公共信息(即只有一个类型),他接收参与人1发出的信号,称为信号接收者。参与人2的行动选择会影响参与人1的效用,而信号也影响参与人2的行动选择。博弈的顺序如下:

不难看出,信号博弈实际上是不完全信息情况下的斯坦科尔伯格博弈。当参与人1发出信号时,他预测到参与人2将根据他发出的信号修正对自己类型的判断,因为选择一个最优的类型依存信号战略;同样,参与人2知道参与人1选择的是给定类型和考虑信息效应情况下的最优策略,因此使用贝叶斯法则修正对参与人1的类型的判断,选择自己的最优行动。信号博弈中涉及到对信号的处理,参与人1的问题如何选择信号,参与人2的问题是对发出信号m的参与人1类型的判断,即条件概率P(θ|m)的计算,这构成一个后验的信念体系。假设两个参与人具有相同的信念体系P(θ|m)且是公共知识,参与人2知道以P(θ|m)方式利用信息,参与人1知道信号接收者会这样利用信息。

②信号博弈中的精炼贝叶斯均衡

一般精炼贝叶斯均衡的概念适用于信号博弈,但因信号博弈简明的特性,可以给出均衡的更具体的形式:令m(θ)是参与人1的类型依存信号战略,a(m)是参与人2的行动策略(同以前一样,允许混合策略,即参与人1以某种概率随机地选择不同的信号,参与人2以某种概率随机地选择行动)。那么,信号传递博弈的精炼贝叶斯均衡可以定义如下:

上述定义中,(P1)和(P2)等价于上一个定义中的(P),是精炼条件。(P1)是指,给定后验概率p˜(θ|m),参与人2对参与人1发出的信号作出所有信息集中的最优反应;(P2)是指,预测到参与人2的最优反应a*(m),参与人1选择自己的最优战略。(B)是贝叶斯法则的运用。信号传递博弈的所有可能的精炼贝叶斯均衡可以划分成三类:分离均衡、混同均衡、准分离均衡。

分离均衡:不同类型的发送者(参与人1)以1的概率选择不同的信号,或者说,没有任何类型选择与其他类型相同的信号。在分离均衡下,信号准确地揭示出类型。假定K=J=2(即只有两个类型、两个信号),那么,分离均衡意味着:如果m^1^是类型θ^1^的最优选择,m^1^就不可能是θ^2^的最优选择,并且,m^2^一定是类型θ^2^的最优选择。即:

                                                                                                                                              u_{1}(m^{1},a^{*}(m),\theta ^{1})>u_{1}(m^{2},a^{*}(m),\theta ^{1})

                                                                                                                                              u_{1}(m^{2},a^{*}(m),\theta ^{2})>u_{1}(m^{1},a^{*}(m),\theta ^{2})

因此,后验概率是

                                           \tilde{p}(\theta ^{1}|m^{1})=1\tilde{p}(\theta ^{1}|m^{2})=0

                                           \tilde{p}(\theta ^{2}|m^{1})=0\tilde{p}(\theta ^{2}|m^{2})=1

混同均衡:不同类型的发送者(参与人1)选择相同的信号,或者说,没有任何类型选择与其他类型不同的信号,因此,接收者(参与人2)不修正先验概率(参与人1的选择没有信息集)。假定m^j^是均衡策略,那么,

                                                                                                                                             u_{1}(m^{j},a^{*}(m),\theta ^{1})\geq u_{1}(m,a^{*}(m),\theta ^{1})

                                                                                                                                             u_{1}(m^{j},a^{*}(m),\theta ^{2})\geq u_{1}(m,a^{*}(m),\theta ^{2})

                                                                                                                                                            \tilde{p}(\theta ^{k}|m^{j})\equiv p(\theta ^{k})

准分离均衡:一些类型的发送者(参与人1)随机地选择信号,另一些类型的发送者选择特定的信号。假定信号θ^1^的发送者随机地选择m^1^或m^2^,类型θ^2^的发送者以1的概率选择m^2^,如果这个策略组合是均衡策略组合,那么:

                                                                                                                                             u_{1}(m^{1},a^{*}(m),\theta ^{1})= u_{1}(m^{2},a^{*}(m),\theta ^{1})

                                                                                                                                             u_{1}(m^{1},a^{*}(m),\theta ^{2})< u_{1}(m^{2},a^{*}(m),\theta ^{2})

                                                                                                                                            \tilde{p}(\theta ^{1}|m^{1})=\frac{\alpha \times p(\theta ^{1})}{\alpha \times p(\theta ^{1})+0\times p(\theta ^{2})}=1

                                                                                                                                     \tilde{p}(\theta ^{1}|m^{2})=\frac{(1-\alpha)\times p(\theta ^{1})}{(1-\alpha) \times p(\theta ^{1})+1\times p(\theta ^{2})}<p(\theta ^{1})

                                                                                                                                     \tilde{p}(\theta ^{2}|m^{2})=\frac{1 \times p(\theta ^{2})}{(1-\alpha) \times p(\theta ^{1})+1\times p(\theta ^{2})}>p(\theta ^{2})

就是说,如果参与人2观测到参与人1选择了m^1^,就知道参与人1一定属于类型θ^1^(因为类型θ^2^不会选择m^1^);如果观测到参与人1选择了m^2^,参与人2不能准确地知道参与人1的类型,但他会推断参与人1属于类型θ^1^的概率下降了,属于类型θ^2^的概率上升了(这里α是类型θ^1^的参与人1选择m^1^的概率)。

由于定义中使用了a*(m),因此隐含地包括了费均衡路径上的一些需要保证是均衡的后验信念。因此,在所有上述三个定义中,都应该适当加上参与人2的最优化条件和非均衡路径上的后验概率。这给求均衡带来很大的困难,实际上这些困难产生于非均衡路径上后验概率的随意性。在只有两个类型和两个信号的情况下,只有混同均衡有非均衡路径,分离均衡和准分离均衡的所有信息都在均衡路径上。但一般来说,如果信号的种类多于类型的种类(即K<J),每种均衡下都有非均衡路径。

③信号博弈均衡的分析的思路

由于信号博弈的均衡对信念体系的依赖性很强,旺旺是博弈在非均衡路径上的信念的改变,就会使均衡变成非均衡。而非均衡路径上的信念又是不能用贝叶斯法则计算的。因此,给定博弈,给定先验概率,求均衡的条件是不够的。

(6)精炼贝叶斯均衡的再精炼及其他均衡概念

精炼贝叶斯均衡存在多重均衡的现象比较普遍,而且均衡的实际结果对非均衡路径上的后验概率具有依赖型。精炼贝叶斯均衡是由非均衡路径上的信念来支持的。均衡实现时非均衡路径上信息集成为均衡路径的概率是零。但却是零概率前提下的决策结的信念,才能保证参与人不偏离均衡路径。实际的博弈中,外部又观察不到非均衡路径上信念的形式。对不完全信息动态博弈的均衡,精炼贝叶斯均衡由于在非均衡路径上只要求与战略相容,这会使新年本身就是不可置信的。实际上,信念体系的合理性在逻辑上可以独立于最优策略来讨论。因为最优决策依赖于信念,信念决定最优策略。信念的理性要求存在于最优策略之前,博弈的结构之中。信念体系是否合理的分析可以分成两类来考虑。一类在均衡路径上,这一类的合理体现在对贝叶斯法则的遵守上。另一类是在非均衡路径上,该遵循什么规则是需要进一步讨论的问题。

精炼贝叶斯均衡能剔除不可置信的策略。但这种剔除可能建立在不可置信的信念上。信念是否可信的问题在非均衡路径上出现时,贝叶斯法则无能为力。为使信念是理性的,需要有贝叶斯法则以外的理性原则进行约束。

①剔除劣策略

精炼均衡的一个基本要求是,在任何一个信息集上,没有参与人选择严格劣策略。均衡剔除劣策略方法的思路是将“不选择劣策略”的要求扩展到非均衡路径的后验概率上。它的基本思想是,在一个博弈中,如果对于某些类型的参与人,存在某些行动或策略劣于另一些行动或策略,而对于另一些类型的参与人这一点不成立,那么,当其他参与人观测到前一类行动时,他不应该以任何正的概率认为选择该行动的参与人属于前一类参与人。(消除劣策略的思路是没有理性的参与人会采取劣策略,并把这一思想附加到信念体系中。也就是说,m信号是θ类型的劣策略,则我们的信念应该是,信号m出现时判断不是θ类型,即P(θ|m)=0。以此来排除一些均衡。再博依参与人是理性的假设下,不采用劣策略是可接受的假设。)

对非均衡路径后验概率的这个简单限制可以大大减少精炼贝叶斯均衡的数量。增加这一要求能消去一些精炼贝叶斯均衡,使保留下来的精炼贝叶斯均衡更符合人的行为准则。现在以信号传递博弈为例给出剔除劣策略方法的正式定义。

上述定义中,a'~2~可能等于也可能不等于a''~2~。这里的定义是:不论a'~1~或a''~1~与什么样的a~2~组合,参与人1从选择a'~1~得到的效用总是小于从选择a''~1~得到的效用。即,该定义的直观意义是一种信号的最大收益不如另一种信号的最小收益,另一个条件是排除U~1~(a'~1~)=U~1~(a''~1~)且不随a~2~变化的情况。这样严格要求的原因是,参与人1在选择自己的行动时,必须考虑自己的行动传递给参与人2有关自己(参与人1)类型的信息。

劣策略消除信念是指:若a~1~是θ~1~型参与人的劣信号,则规定后验概率P(θ~1~|a~1~)=0,如果a~1~是所有类型的参与人1的劣策略,可以在博弈中就把这种信号在信号空间中消去,而构成一个更少信号的博弈。

可以注意到,弱劣策略消去不依赖于均衡路径。所以可在求均衡前进行分析。

但是,上述剔除劣策略的方法并不能帮助我们缩小垄断限价博弈的混同均衡的数量。

②直观标准

克瑞普斯和克瑞普斯—曹的“直观标准”将劣策略扩展到相对于均衡策略的劣策略,从而通过剔除更多劣策略的办法缩小均衡数量,进一步改进了精炼贝叶斯均衡概念。

直观标准是比剔除劣策略要求更高的标准。他对非均衡路径上的信念附加要求,对精炼贝叶斯均衡再用直观标准进行判断。把不符合直观标准的均衡排除在均衡之外。直观标准通过降低劣策略的要求来实现,以均衡解的效用水平为参考标准。若某一信号的收益在最有利的信念下也不会超过均衡时的效用水平。直观上,可以认为相应类型的参与人不会有发送这种信号的动机,所以,应该在这种信号出现的条件下判定相应类型的参与人的可能性为零。而把这部分概率加到其他类型的参与人上。由于提高了其他类型参与人的概率,可能使某些类型的参与人偏离是有利可图的。把这种思想总结为一般的方法称为直观标准。其思想是某一信号相对于均衡信号是劣的,则偏向这种信号时相应类型的参与人的类型后验概率是0.这种思路下,信念体系更有柔性,不存在强加信念而形成均衡。

③克瑞普斯—威尔逊序贯均衡

粗略地讲,克瑞普斯—威尔逊序贯均衡的基本思想是,在子博弈精炼纳什均衡或贝叶斯均衡概念上增加一个新的要求:在博弈到达的每一个信息集上(不论该信息集在均衡路径还是非均衡路径),参与人的行动必须由某种有关之前发生的事情(自然选择类型或行动者选择行动)的信念(概率)“合理化”。在均衡路径上,后验信念由贝叶斯法则决定。但在非均衡路径上,贝叶斯法则没有定义。克瑞普斯和威尔逊处理非均衡路径上后验概率的办法是:首先假定,在每一个信息集上,参与人选择严格混合策略(即,严格正的概率选择每一个行动),从而博弈到达每一个信息集的概率严格为正,贝叶斯法则在每一个信息集上都有定义;然后将均衡作为严格混合策略组合与此相联系的后验概率的序列的极限。这样,检查一个策略组合和后验概率是否是一个均衡就变成一个纯技术问题:它是否是某个严格混合策略组合和与此相联系的后验概率的序列的极限。【序贯均衡的思路是创造一个条件,使贝叶斯法则在非均衡路径上的信念体系从极限的意义上复合贝叶斯法则。基本方法是把非均衡路径的信息集的零概率用混合策略放大到正概率,再用贝叶斯法则确定后验概率,在此基础上,再把正概率缩小,直到极限,这时信息及上的后验概率分布会收敛,以收敛结果作为后验概率。】

克瑞普斯和威尔逊使用博弈的扩展式表述定义序贯均衡的概念。

序贯均衡可以定义如下:

注意,均衡策略组合σ不一定是严格混合策略,甚至可能是纯策略,但σ和μ可能是严格混合策略组合和相联系的概率的极限。条件(S)是条件(P)的扩展,条件(C)是条件(B)的扩展。对多阶段博弈而言,条件(S)等价于条件(P),条件(C)等价于条件(B)。一致性要求(C)是序贯均衡概念最重要的创造。序列(σ^m^,μ^m^)可以理解为均衡(σ,μ)的“颤抖”:颤抖使得贝叶斯法则适用于博弈的所有路径。

序贯均衡与精炼贝叶斯均衡的主要区别在于,一致性条件(C)比贝叶斯法则(B)更强,满足一致性条件(C)的均衡一定满足贝叶斯法则(B),但逆定理不一定成立。序贯均衡对精炼贝叶斯均衡有多少改进呢?几乎所有的与战略相容的信念体系,可用序贯法得到。几乎所有的含义是只有几组特殊的效用函数取值会导致差异。

④泽尔腾的颤抖手精炼均衡

在纳什均衡中,由于逻辑上对参与人理性的假设,就把偏离理性的可能排除在外。但实际上,容纳一定程度上非理性偏离的均衡将会对参与人行动的预测更有说服力。

泽尔腾使用策略式博弈引入颤抖手精炼均衡概念。颤抖手均衡的基本思想是,在任何一个博弈中,每一个参与人都有一定的可能性犯错误;一个策略组合,只有当它在允许所有参与人都可能犯错误时仍是每一个参与人的最优策略的组合时,才是一个均衡。泽尔腾将非均衡事件的发生解释为“颤抖”。通过引入“颤抖”,博弈树上的每个决策结出现的概率都为正,从而每一个决策结上的最优反应都有定义,原博弈的均衡可以理解为被颤抖手扰动后的博弈的均衡的极限。

上述定义中关键的一点是σ^m^~i~必须是严格混合策略(即选择每一个纯策略的概率严格为正)。每一个参与人i打算选择σ~i~,并且假定其他参与人打算选择σ~-i~;但每一个参与人i怀疑其他参与人可能错误地选择σ^m^~i~(≠σ~i~)。条件1是指,尽管每一个参与人i都有可能犯错误,但错误收敛于0;条件2是指,每一个参与人i打算选择的战略σ~i~不仅在其他参与人不犯错误时是最优的(纳什均衡),而且在其他参与人错误地选择了σ^m^~i~(≠σ~i~)时也是最优的。在上述定义中,隐含的假定任何一个参与人犯错误的机会与其他人犯错误的机会无关(或者说,颤抖在参与人之间都是独立发生的)。在这个假设下,根据条件2,任何包含弱劣策略的纳什均衡都不可能是颤抖手均衡。

策略式表述博弈定义颤抖手均衡的一个重要缺陷是,策略式博弈允许同一参与人在博弈的不同阶段的错误(颤抖)具有相关性。为了排除参与人犯错误的动态相关性,泽尔腾引入了“代理人—策略式表述”以修正颤抖手均衡的概念。代理人—策略式表述等价于一个原扩展式表述博弈的重新构造,在重新构造的扩展式表述中,参与人不仅以名称i和类型θ~i~相区别,而且以在博弈树中的位置相区别。这样,原来的参与人类似一个委托人,它在不同的信息集上雇佣了不同的代理人(每一个信息集上都有一个不同的代理人),授权后者决策;同意各委托人的所有代理人的支付函数与委托人相同,因此,完全按委托人的利益决策。代理人—策略式表述是一个纯技术性工具,有关精炼均衡的其他概念(包括子博弈精炼均衡、精炼贝叶斯均衡、序贯精炼)同样可以定义在代理人—策略表述上。

颤抖手均衡一定是序贯均衡,序贯均衡一定是精炼贝叶斯均衡,如果一个博弈存在着颤抖手均衡,也一定存在着序贯均衡和精炼贝叶斯均衡。泽尔腾证明,在所有的有限博弈中,至少存在一个颤抖手均衡。

(7)不完全信息重复博弈与声誉

把不完全信息整合到有限重复博弈中的一种方法是假设参与人有不同的类型,一类参与人是理性的,一类参与人是非理性的。理性的人会采取对策,而不理性的人会采用一种固定的策略。

阿克斯罗德的实验结果表明,即使在有限次重复博弈中,合作行为也频繁出现。克瑞普斯、米尔格罗姆、罗伯茨和威尔逊的声誉模型(KMRW模型)通过将不完全信息引入重复博弈证明了,参与人对其他参与人支付函数或策略空间的不完全信息对均衡结果有重要影响,合作行为在有限次博弈中会出现,只要博弈重复的次数足够(没有必要是无限的)。

一般地,有如下定理。

KMRW定理的直观解释是,尽管每个参与人在选择合作时冒着可能得到一个较低的现阶段支付,但如果他不选择合作,就暴露了自己是非合作型的,从而失去了获得长期合作收益的可能。如果博弈重复的次数足够多,未来收益的损失就超过了短期损失,因此,在博弈的开始,每一个参与人都想树立一个合作形象,即使他在本性上并不是合作型的;只有在博弈快结束的时候,参与人才会一次性地把自己过去建立的声誉利用尽,合作才会停止。

KMRW模型的最为成功之处在于它证明:只要博弈重复的次数足够长,参与人有足够的耐心,即使(有关参与人类型的)小小的不确定性也可能引起均衡结果的重大改变(很小的p就可以保证合作均衡的出现,但如果p=0,合作均衡不可能出现)。当然,合作均衡的可能性依赖于我们有关非理性参与人行为的假定。

(8)博弈论均衡概念简要总结

二、博弈树

1.描述图形

【定义】(有限)定向图形是一个配对G=(V,E),其中

  • V是一个有限集合,其中的元素叫做结点
  • E⊆V×V是配对结点的有限集,其中的元素叫做‘边’。每个定向边都是由两个结点构成;边的两个端点(或为同一端点)

【定义】假设x^1^和x^K+1^是图形G中的两个节点。从x^1^到x^K+1^的路径是节点和边的有限序列,形式如下

                                                                               x^{1},e^{1},x^{2},e^{2},...,e^{K},x^{K+1}

这里的节点是独特的:对每一个k≠l和1≤k≤K,e^k^≠e^l^,边e^k^连接的是x^k^和x^k+1^两个节点。数字K叫做路径长度。如果K≥1并且,那么路径是循环的。

2.树状图

【定义】满足下列条件,就是三层的树状图G=(V,E,x^0^)

  • (V,E)叫做定向图
  • 节点x^0^∈V叫做树状图的根
  • 对每一个节点x∈V,在图形中从x^0^到x的路径也是唯一的。

3.博弈树

(1)博弈树的定义:把博弈过程用图表示出来,就得到一棵与/或树,被称为博弈树。博弈树的基本建设材料(building block)包括结(node)、枝(branch)和信息集(information set)。

①结:

  • 结包括决策结(decision node)和终点结(terminal node)。决策结是参与人采取行动的时点,终点结是博弈行动路径的终点。
  • 一般地,用X表示所有结的集合,x∈X表示某个特定的结。用“≺”表示定义在X上的顺序关系:x≺x''意味着“x在x''之前”。且,假定“≺”满足传递性和反对称性。传递性和反对称性意味着顺序关系“≺”是半序的,即有些结之间是不可比较的。
  • 定义P(x)为在x之前的所有结的集合,简称为x的前列集;定义T(x)为x之后的所有结的集合,简称为后续集。如果P(x)=∅,x称为初始结;如果T(x)=∅,x称为终点结。除终点结之外的所有结都是决策结。
  • 除初始结O之外,对于所有的x∈X,如果存在一个p(x)∈P(x),使得对于所有的x''≺x,x''≠p(x)意味着x''≺p(x),那么p(x)称为x的直接前列结。前列结全排序假设意味着任何一个非初始结的直接前列结是唯一的(初始结没有前列结)。如果x''是x的直接前列结,那么x称为x''的直接后续结。直接后续结的集合用t(x)表示。
  • 一般,引入函数i:X→{N,1,...,n},即i(x)定义为从决策集合到参与人集合(包括“自然”)的函数,解释为在决策结x,参与人i行动。函数i(x)给出了博弈中参与人行动顺序的完整描述。
  • 标注在博弈树终点结下的是参与人的支付向量。一般,因为传递性、反对称性、前列集全序假设以及后续要讨论的行动与后续结的对应关系下,每一个终点结z完全决定了博弈树的路径,可以用函数u~i~(z)表示对应的博弈路径所导致的第i个参与人的支付函数。

②枝:

  • 在博弈树上,枝是从一个决策结到它的直接后续结的连线(有时用箭头表述),每一个枝代表参与人的一个行动选择。
  • 一般,对于一个给定的决策结x∈X,存在一个有限的行动集合A(x)和一个一一对应的函数a:t(x)→A(x),这里t(x)是x的后续结的集合。函数a(.)意味着,对于任何给定的x∈X(不包括终结点),在该结点可选择的行动集合A(x)与该结点的直接后续结集合t(x)之间存在一一对应关系:如果a∈A(x),a''∈A(x)且a≠a'',那么,t(x,a)≠t(x,a'')。换言之,当且仅当参与人选择不同的行动时,从一个给定的结出发博弈才会到达不同的直接后续结。
  • 博弈树的枝不仅完整地描述了每一个决策结参与人的行动空间,而且给出了从一个决策结到下一个决策结的路径。正因此,每一个终点结才完全决定了博弈树的路径。

③信息集:

  • 博弈树上的所有决策结分割成不同的信息集。每一个信息集是决策结集合的一个子集,该子集包括所有满足下列条件的决策结:
  1. 每一个决策结都是统一参与人的决策结
  2. 该参与人直到博弈进入该集合某个决策结,但不知道自己究竟处于哪一个决策结。
  • 引入信息集的目的是描述下列情况:当一个参与人要做出决策时它可能并不知道“之前”发生的所有事情。
  • 一般,用H代表包含信息集的集合,h∈H代表一个特定的信息集,用h(x)表示包含决策结x的信息集。h(x)是一个信息集意味着在x点决策的参与人i不确定他是否在x或其他的x''∈h(x)。这一点意味着一个决策结属于一个并且只属于一个信息集,因为如果x''∈h(x),那么x∈h(x'')。此外假定x''∈h(x),要求H满足如下条件:
  1. x∉P(x'')且x''∉P(x)。【任何一个决策结不能是属于同一信息集的其他决策结的前列结或后续结。】
  2. i(x)=i''(x)。【同一信息集的所有结都是同一参与人的决策结。】
  3. A(x)=A(x'')。【一个参与人在属于同一信息集的每一个决策结的行动空间应该是相同的。】

有以上假设,可以用A(h)表示给定信息集下的行动集合。从某种意义上,信息集的构造和上述三个假设反映了博弈模型的一个更为基本的假设,博弈的结构是所有参与人的共同知识,每个参与人都可以看到博弈树。

  • 一个信息集可能包含多个决策结,也可能只包含一个决策结。只包含一个决策结的信息集称为单结信息集。如果博弈树的所有信息集都是单结的,该博弈称为完美信息博弈。完美信息博弈意味着博弈中没有任何两个参与人同时行动,并且所有后行动者能确切地直到前行动者选择了什么行动,所有参与人观测到自然行动。(在博弈论中,自然的信息集总是假定为单结的。因为自然是随机行动的,自然在参与人决策之后行动等价于自然在参与人决策之前行动但参与人不能观测到自然的行动。)
  • 不同的博弈树可能代表相同的博弈。不过,有一个基本的规则必须得遵守,一个参与人在决策之前知道的事情(可能是其他参与人的行动或自然的行动)必须出现在该参与人的决策结之前。
  • 信息集必须准确地表达出来。(同一参与人在代表同一博弈的不同博弈树中的信息集的数量必须相同,自然除外。)
  • 一般假定博弈满足“完美回忆”的要求。完美回忆是与信息集有关的一个概念,指的是没有参与人会忘记自己以前知道的事情,所有参与人知道自己以前的选择。为了确保博弈具有完美回忆的特征,要求如果:
  1. x^2^∈h(x^1^)(x^2^和x^1^属于同一信息集)
  2. x∈P(x^1^)(x是x^1^的前列集)
  3. i(x)=i(x^1^)(x和x^1^都是i的决策结)

那么存在一个x''(可能是x本身),满足:

  1. x''∈h(x)

  2. x''∈P(x^2^)

  3. 在x点为到达x^1^的行动与在x''点为到达x^2^的行动是一样的。

  • 当博弈设计外生的不确定性事件时,假定“自然”以某种概率选择某个特定事件。在博弈树上,一般用方括号内的数字代表概率。一般假定所有参与人对自然的选择具有相同的先验概率,即“海萨尼公理”。

(2)博弈树的特征

  • 博弈的初始状态是初始结点
  • 博弈树始终是站在某一方的立场上得出的
  • 所有能使自己一方获胜的终局都是本原问题,相应的结点是可解的;所有使对方获胜的终局都是不可解的结点
  • 博弈树中自己一方扩展的结点之间是‘或’的关系,对方扩展的结点之间是‘与’的关系,所以‘或’结点与‘与’结点是逐层交替出现的

(3)与博弈树有关的定义

①【定义】扩展式博弈是一个有序的向量

                                                                  \Gamma =(N,V,E,x^{0},(V_{i})_{i\in N},O,u)

其中

  • N是参与人的有限集合
  • (V,E,x^0^)是一个树状图,叫做博弈树
  • (V~i~)~i∈N~是非终结点的集合,且允许其中包含空集
  • O是可能的博弈结果的集合
  • u是一个函数,连接博弈树的每一个终点和集合O中的每一个博弈结果

②【定义】(完全信息和包含随机行动的)扩展式博弈是如下向量

                                                          \Gamma =(N,V,E,x^{0},(V_{i})_{i\in N\cup \left \{ 0 \right \}},(p_{x})_{x\in V_{0}},O,u)

其中

  • (V~i~)~i∈N∪{0}~是非终结点的集合
  • 对每一个x∈V~0~,p~x~是从x出发的边的集合的概率分布

③【定义】(不完全信息和包含随机行动的)扩展式博弈是如下向量

                                                          \Gamma =(N,V,E,x^{0},(V_{i})_{i\in N\cup \left \{ 0 \right \}},(p_{x})_{x\in V_{0}},(U_{i}^{j})_{i\in N}^{j=1,...,k_{i}}O,u)

其中

  • 对每一个i∈N,(U~i~^j^)~j=1,...,k~i~~是V~i~的一个分隔区
  • 对每一个i∈N以及j∈{1,2,...,k},(U~i~^j^,A(U~i~^j^))是参与人i的一个信息集

4.博弈树搜索

数学中的博弈论把任何多智能体的环境看成一种博弈游戏,其中每个智能体对其他智能体的影响是显著的,与智能体是合作的还是竞争的无关。人工智能中的博弈通常是指有完整信息的、确定性的、轮流行动的、两个游戏参与者的零和游戏。游戏可以形式化地定义为含有下列组成部分的一类搜索问题:

  • 初始状态,包括期盼局面和确定该哪个游戏者出招。
  • 后继函数,返回(move,state)对的一个列表,其中每一对表示一个合法的招数及其结果状态。
  • 终止测试,测试判断游戏是否结束。游戏结束的状态称为终止状态。
  • 效用函数(又称为目标函数或者收益函数),对终止状态给出一个数值。可能是零和游戏,也有可能是非零和游戏。
  • 每方的初始状态和合法招数定义了游戏的博弈树。

(1)最优决策

给定一棵博弈树,最优策略可以通过检查每个节点的极小极大值来决定,称为Minmax-Value(n)。假设在某一步以后游戏者都按照最优决策进行,那么这一节点对应的极小极大值就是对应状态的效用值。显然对于终止状态,极小极大值就是它的效用值。才外,一直一个选择,MAX将优先选择移动到一个有极大值的状态,而MIN则移动到一个有极小值的状态。因此,可得到如下公式。

(2)极小极大算法

极小极大算法是从当前状态来计算极小极大值的策略。它采用了简单的递归策略,直接计算每个后继的极小极大值,直接实现定义公式。递归算法之上而下一直前进道树的叶子结点,然后随着递归回溯,通过树把极小极大值回转。极小极大算法对博弈树执行了一个完整的深度优先搜索。如果树的深度为m,在每个结点上合法的招数有b个,那么极小极大算法的时间复杂度为O(b^m^)。当然,对于真实的游戏,这样的时间开销完全不适用,不过这个算法可以作为对游戏进行数学分析的基础和其他使用算法的基础。

(3)多人游戏中的最优策略

如果对多人游戏进行分析,可以将二人游戏中的极小极大值的算法进行推广。首先把每个结点上的单一值替换成一个向量值。对于终止状态,这个向量给出了每个人从这个向量出发得到的状态效用值。对于非终止状态,考虑在博弈树上标记为X节点,因此X的返回向量就是该游戏者在这个节点选择的效用值最高的后继者的效用值向量。

(4)α-β剪枝

极小极大算法的主要问题是必须检查的游戏状态的数目随着步数呈指数级增长,虽然没有办法来消除这种指数级的增长,但是可以有效地将其减半。借助这样的策略就能消除搜索树中的很大一部分,将这种特别的技术称为α-β剪枝。将其应用到一颗标准的极小极大搜索树中,它能剪裁掉那些不可能影响最后决策的分支,而且可以返回和极小极大治算法同样的结果。

α-β剪枝可以用于树的任何深度,而且很多情况甚至能剪裁整个子树,而不仅仅局限于剪裁叶节点,一般原则是考虑在树中某处的节点n,游戏者可以选择移动到该节点。如果游戏这在n的父节点或者更上层的任何选择点有一个更好地选择m,那么在实际的游戏中就永远都不可能到达n。所以一旦通过计算发现了n的足够信息(通过检查n的某些后代),能够得到以上的结论,那么就可以剪裁它。

极小极大搜索是深度优先的,所以在任何时候都不得不考虑树中的一条单一路径上的节点,α是指到目前为止的路径上任意选择点发现的MAX的最佳(极大值)。β表示的是目前为止在路径上的任意选择点发现的MIN的最佳(极小值)。在搜索过程中不断更新α和β的值,并且当某个节点的值比目前的MAX的α或者比MIN的β更差的时候就剪裁这个节点剩下的分支,然后终止递归调用。

剪枝的效率很大程度上取决于检查后继的顺序。如果能够做到先检查那些可能最好的后继,那么α-β算法只需要检查O(b^d/2^)个节点就能找到最佳决策,而极小极大算法需要检查O(b^d^)个节点。这就意味着有效分支因子有b变成了b^1/2^,在同样的下棋时间内,α-β算法比极小极大算法多向前预测大约两倍的步数。

(5)不完整的实施决策

如果将启发式评价函数用于搜索中的状态,能有效地把非终止节点转变为叶子终止节点,从而尽早地截断搜索。对于给定的情形,评价函数返回的是一个对游戏期望效用的估计。博弈程序的性能表现则取决于评价函数的质量。

首先,评价函数应该以和真正的效用函数同样的方式对终止状态进行排序;其次,评价函数的计算不能花费太多的时间;第三,对于非终止状态,评价函数应该和取胜的世纪机会密切相关。

大多数评价函数的工作方式是计算状态的不同特征。这些特征在一起定义了状态的各种类别或者等价类:每类中的状态和会导致失败的状态。评价函数无法知道哪个状态是哪类,但是可以返回一个反映每个结果中状态所占比例的单一值。大体上每个类可以确定一个期望值,产生一个对任何状态都可行的评价函数。对于终止状态,评价函数不需要返回准确的期望值,只要保持状态的排序不变即可。

 

 

 

 

 

整理自:

1.http://courseware.eduwest.com/courseware/0469/content/content/neirong/0601.htm

2.车文博 主编.《心理咨询大百科全书》.杭州:浙江科学技术出版社.2001.第519页.

3.周志华 著. 《机器学习》. 清华大学出版社.2016.

4.李航 著. 《统计学习方法》. 清华大学出版社.2012.

5.谢妞妞. 《决策树算法综述》. 软件导刊. 2015.11

6.https://baike.baidu.com/item/%E5%9F%BA%E5%B0%BC%E7%B3%BB%E6%95%B0/88365?fromtitle=%E5%9F%BA%E5%B0%BC%E6%8C%87%E6%95%B0&fromid=360504&fr=aladdin

7.https://www.cnblogs.com/luban/p/9412339.html

8.王熙照 游自英.《决策树简化(剪切)方法综述》. 计算机工程与应用. 2004.27

9.王黎明 刘华.《决策树中避免过度拟合的方法》. 软件导刊. 2006.

10.魏红宁.《决策树剪枝方法的比较》. 西南交通大学学报. 2005.

11.陈广花 王正群 刘风 俞振州.《一种多变量决策树的构造与研究》. 计算机工程与应用. 2010.

12.许俊.《决策树算法中的连续属性处理方法》. 河北理工学院学报. 2007.

13.巩固 张虹.《决策树算法中属性缺失值的研究》. 计算机应用与软件. 2008.

14.张维迎 著.《博弈论与信息经济学》. 格致出版社. 2004.

15.吴广谋 吕周洋 编著.《博弈论基础与应用》. 东南大学出版社. 2009.

16.[以]迈克尔·马希勒 / [以]埃隆·索兰 / [以]什穆埃尔·扎米尔 著;赵世勇 译.《博弈论》. 格致出版社. 2018.

17.鲁斌 刘丽 李继荣 姜丽梅 编著.《人工智能及应用》. 清华大学出版社. 2017.

18.罗忠文 杨林权 向秀桥 编著.《人工智能实用教程》. 科学出版社. 2015.

 

  • 3
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值