博弈论（Game Theory）入门——基础知识

最新推荐文章于 2024-02-29 19:41:48 发布

HMarkov

最新推荐文章于 2024-02-29 19:41:48 发布

阅读量1.3w

点赞数 16

文章标签：其他

本文链接：https://blog.csdn.net/qq_39567625/article/details/127897183

版权

本文介绍了博弈论的基础概念，包括博弈的基本要素、标准表达式、收益矩阵等，并详细解释了占优策略、弱占优策略及帕累托占优的概念。此外，文中还探讨了动态博弈中的信息结构。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 博弈的定义

博弈的基本要素：参与人（players）、行动（actions）、信息（information）、策略（strategies）、收益（payoffs）和均衡（equilibria）。

标准表达式（normal form）：设在 $n$ 个参与者的博弈中，令 $S_i$ 表示参与者 $i$ 可选择的战略集合（也称为战略空间），其中任意一个特定的战略用 $s^*_ i$ 表示（ $s^*_ i$ ∈ $S_i$ ），当每个参与者都选定一个策略后形成了博弈的一个战略组合（ $s_1$ ,…, $s_n$ ）。令 $u_i$ 表示第 $i$ 个参与者选则对应策略后的收益函数。由此可定义博弈的标准表达式： $G =$ { $S_1,…S_n, u_1,...u_n$ }.

收益矩阵：两人博弈的标准表达式通常可以使用收益矩阵来表示。例如经典的囚徒困境问题。两个犯罪嫌疑人被逮捕并被分别隔离审问，他们不同的行动将带来不同的后果。如果两人都不坦白（沉默）将被判入狱1个月；如果双方都坦白（招认），两人都将判处6个月；如果一人招认而另一人拒不坦白，则招任一方将马上释放，而不坦白的另一人将判处9个月。两人博弈的收益矩阵可表示为如下形式，其中每一单元格有两个数字，分别表示囚徒1和囚徒2的收益。
囚徒困境

策略：参与人关于其行动的完备集合，即考虑每一种可预见情况下选择的行动，即使那种情况出现不一定会出现。书上举例了一个直白的例子，如果参与人在1989年自杀，他的策略里也应当包括如果他在1990年还活着应该采取对应的行动。

策略和行动是有区别的，而在一些简单的博弈中两者的表现可能是一致的，如上述的囚徒困境中博弈双方的策略和行动可选集都是{沉默，招认}。

均衡：由博弈中的 $n$ 个参与人选取的最佳策略所组成的一个策略组合 $s^*$ =( $s^*_ {1}$ ,…, $s^*_ {n}$ ) 。

2. 占优策略

严格占优策略（dominant strategy）: 参与人i对于其他参与人所选择的策略s-i（用-i表示除了i之外的其他参与者）的最佳应对策略si*。即无论别人选择什么策略，选择s*都是最优的。这里的最优是指能使得参与人的收益最大化， $u_i(s_i^*,s_{-i}) > ui(s_i,s_{-i})$ 。相对地，那些较差的策略称为占劣策略（dominated strategy）。

在囚徒困境中，招认对于博弈双方都是占优策略，因为无论囚徒2选择沉默还是招认，囚徒1都有更高的收益（当囚徒2选择沉默时候，囚徒1选择招认收益为0，大于其选择沉默的收益-1；当囚徒2选择招认时，囚徒1选择招认的收益-6大于其选择沉默的收益-9），反之亦然。

弱占优策略：在一些博弈中，某些策略的收益至少不劣于其他策略， $u_i(s_i^*,s_{-i}) \ge ui(s_i,s_{-i})$ ，这些策略称为弱占优策略。除了在某些情况下该策略和其他策略取得相同的收益，在其他情况下该策略的收益都要优于其他策略。

帕累托占优（pareto optimality）：帕累托占优是从局外人的视角看待整个博弈。如果某个状态不能够再改进（这个改进是指在不损害一方的利益下提高另一方的利益），就说这个状态是帕累托最优。例如，在囚徒困境中存在三个帕累托最优策略（沉默，沉默），（招供，沉默），（沉默，招供）；而（坦白，坦白）虽然对于参与人都是严格占优策略，但是从上帝视角来看，选择（沉默，沉默）这个策略相比（坦白，坦白）双方都有更高的收益。

3. 信息

在动态博弈中（参与者的行动有先后顺序），信息是至关重要的，为此先定义博弈的扩展式（extensive form）。博弈的扩展式包括（1）博弈中的参与人；（2a）每一参与者在何时行动；（2b）每次轮到某一参与者行动时可供他选额的行动；（3）与参与者可能选择的每一行动组合对应的收益。扩展式可以进一步以博弈树的形式表示。
在这里插入图片描述
图中博弈有两位参与者，参与者1可从{ ${L, R}$ }中选择对应的行动 $a_1$ ，接着参与者2观测到参与者1的行动后从{ ${L', R'}$ }中选择 $a_2$ ，两参与者的收益分别为 $u_1(a_1,a_2)$ 和 $u_2(a_1,a_2)$ 。

在动态博弈中可能会出现这么一种情况，参与人 $i$ 知道现在是该谁行动给了，但却不知道博弈已经到达了博弈树的哪个具体位置，或者说该参与人无法区分他处在哪个节点上。考虑下图这种情况，此时参与人2不知道参与人1做出何种选择，无法区分他所处在左边的节点上还是右边的节点。这些无法区分的节点集合称为信息集。
在这里插入图片描述
对不同的信息结构对博弈进行划分，总结如下：

信息种类	含义
完美（perfect）	每个信息集都是单结点的
完全（complete）	自然不首先行动或它的最初行动被每个参与人所观察到
对称（symetric）	没有参与人在行动时或在终点结处有与其他参与人不同的信息

完美信息博弈满足了对于信息的最强要求，在这样的博弈中，每个参与人对于自己所处博弈树中的位置总是一清而出的，没有行动是同时进行的，且所有参与人都观察到了自然的行动。任何具有不完全或不对称信息的博弈也是不完美信息博弈。进一步地，可以归纳出以下博弈类型。

在这里插入图片描述