进阶博弈论 Advanced Game Theory （Stanford+UBC）学习笔记

最新推荐文章于 2023-03-17 19:10:13 发布

AgentSmart

最新推荐文章于 2023-03-17 19:10:13 发布

阅读量1.2k

点赞数 1

分类专栏：算法学习博弈论机器学习文章标签：博弈论算法人工智能

本文链接：https://blog.csdn.net/dzc_go/article/details/120785706

版权

机器学习同时被 3 个专栏收录

37 篇文章

订阅专栏

博弈论

24 篇文章

订阅专栏

算法学习

23 篇文章

订阅专栏

进阶博弈论（Advanced Game Theory）学习笔记（已全部更新）

1-1 Social Choice：Taste

投票选举系统非常复杂，并且现有的选举系统并不十分公平合理。我们想通过所学的知识去设想设计一个更优的投票选举系统。

1-2 Social Choice：Voting Schemes

本章节我们来学习投票机制的基本形式化表达以及几种常见投票机制。
投票问题大体指：有一系列候选项，每位决策者都有自己对于候选项的偏好并且根据此做出投票，综合所有人的投票结果得到最终候选项序列。投票问题有以下几个元素：候选项 alternatives $O$ 、决策者对于候选项的偏好 preferences $\succ$ 、社会选择函数 social choice function。
决策者对于候选项的偏好是一个线序（全序）关系，即每个人的偏好都可以表示成一个矩阵，每一个行、列所对应的单元格都代表了任意两个候选项之间的偏序前后关系。
严格偏好 $L$ ：决策者针对任意两个候选项之间都有明确的偏序前后关系，不存在“中立”。即要么 $a\succ b$ 要么 $b\succ a$ 。满足可传递性。
非严格偏好 $L_{NS}$ ：决策者对任意两个候选项之间可以存在“中立”关系，总体起来可以叫作“略微倾向于”，即 $a\succeq b$ 或者 $b\succeq a$ 。满足可传递性。
形式化模型
代理者集合 $N=\{1,2,...,n\}$ ，候选者集合 $O$ ，非严格偏好 $L_{NS}$ 。
社会选择函数social choice function： $C:L_{NS}^n\to O$ 。n个代理者的非严格偏好映射到一个投票结果。
社会福利函数social welfare function： $W:L_{NS}^n \to L_{NS}$ 。n个代理者的非严格偏好映射到一个群体偏好序列。
常见投票机制：
1.Plurality 多元制
每个人投一个最喜欢的，然后统计票数，拥有最多最喜欢投票的当选。
2.Cumulatuve voting累计投票制
每个人拥有多张选票，可以根据喜好程度的不同投不同数量的票。最后统计票数可以得到社会福利函数映射的结果——群体偏好序列。
3.Plurality with elimination多数淘汰机制
每个人投一个最喜欢的，然后统计票数，如果拥有最多票数过半那么直接当选。否则淘汰获得票数最低的一位候选者再次进行投票。
4.Borda Rule,Borda Count波达规则，波达计数法
比如一共四个候选人ABCD，每个代理者需要分别投出3分、2分、1分、0分。1号决策者的分数安排是A,B,C,D,2号决策者的分数安排是B,C,A,D…最后统计票数，同样可以得到群体偏好序列。
5.Successive elimination
从前两位候选者开始两两投票比较，败者淘汰，胜者继续两两比较。
Condorcet Consistency孔多塞一致性
如果，某个候选者针对于任何一个候选者的两两投票PK中都获胜，那么就存在孔多塞一致性。
孔多塞一致性不一定总存在，甚至有时候会存在一个循环比较。

1-3 Social Choice：Paradoxical Outcomes

本章节我们来学习一下社会选择中很多矛盾的结论。矛盾存在于多种投票机制之间，或者投票机制与一些定理之间。
第一组例子：

1.是否存在孔多塞一致性胜者？存在且胜者为 $C$
$B\succ C:502/1000;B\succ A:501/1000$ 故C为孔多塞一致性胜者
2.根据多元制 plurality投票规则？胜者为A
最喜欢A的人数最多，当然胜者就是A。
3.根据多元淘汰制plurality with elimination投票规则？胜者为C
第一轮投票喜欢A的人数不足半数及以上，最喜欢B的人最少故淘汰B，淘汰之后的投票结果是：
$499:A\succ C;501:C\succ A;$ 最喜欢C的人数达半数，故胜者为C。
三种不同投票策略，结果相差巨大，矛盾所在！
第二组例子：

1.根据多元制 plurality投票规则？胜者为A
最喜欢A的人数最多，当然胜者就是A。
2.根据波达投票制Borda voting投票规则？胜者为A
假设根据次序依次赋分2、1、0，统计投票结果得 $A : 103; B : 101; C : 99$ ,故胜者为A。
3.C考虑到无论哪种投票策略自己都不会赢得选举，索性退出选举。那么退出选举之后依据以上两种策略，胜者为？胜者为B
虽然C自己不会赢得选举，但是存在与否对选举结果产生了影响，矛盾所在！
第三组例子：

1.采用迭代消去法，且比较顺序agenda为 $A, B, C$ ?胜者为C
第一轮 $A\succ B:35:100$ ，第二轮 $B\succ C:33:100$ ，故胜者为C
2.采用迭代消去法，且比较顺序agenda为 $A, C, B$ ?胜者为B
第一轮 $A\succ C:68:100$ ，第二轮 $A\succ B:35:100$ ，故胜者为B
3.采用迭代消去法，且比较顺序agenda为 $B, C, A$ ?胜者为A
第一轮 $B\succ C:33:100$ ，第二轮 $C\succ A:32:100$ ，故胜者为A
迭代消去法中，就连比较顺序不同，投票结果都不同，矛盾所在！
第四组例子：

1.采用迭代消去法，且比较顺序agenda为 $A, B, C, D$ ?胜者为D
第一轮 $A\succ B:2:3$ ，第二轮 $A\succ C:1:3$ ，第三轮 $C\succ D:1:3$ 故胜者为D
2.但是我们发现，所有决策者都认为 $B\succ D$ ,所在B对于D来说是帕累托压制的。那么上述比较顺序最终却让D获胜，足以见得矛盾所在！

1-4 Social Choice：Impossibility of Non-Paradoxical Social Welfare Functions

上一章节我们看了这么多的矛盾存在，那么是否可能达成没有矛盾的社会福利函数呢？本章节就是用来探索这一问题。
Pareto Efficiency 帕累托有效

如果所有参与者对任意两个结果的排序一致，那么社会选择函数 $W$ 是帕累托有效的.

显而易见如果一个社会选择函数产生的结果或者是群体排序序列，每一位代理者都同意，那么这个社会选择函数在某种程度上就是合理的。

Independence of Irrelevant Alternatives 无关备选独立性

投票想要实现a,b的排序时，最终的排序结果只依赖于所有代理者对于a,b的偏好程度，与其他二元对无关。

Dictatorship 独裁者

如果在一个多代理者的投票活动中，最终的投票结果只取决于某一个代理者的投票选择，那么这个代理者称为独裁者，该投票活动称为拥有独裁者的投票活动。

当然我们不希望独裁者的出现，因为独裁者使得投票失去了民主、公平的意义。我们也尽量避免出现拥有独裁者的投票活动。

Arrow’s Theorem 阿罗定理

任何一个包含三个及以上候选项的社会福利函数，如果帕累托有效和无关备选独立性同时成立那么一定是拥有独裁者的投票活动。

帕累托有效和无关备选独立性是一个投票活动合理、无矛盾的保证，但是阿罗定理表明，这两天合理的性质同时满足的话就成了我们嗤之以鼻的恶魔——独裁者。说明投票活动的合理性有一定的限度。

1-5 Social Choice：Arrow’s Theorem

本章节我们要学习的是，如何形式化表述阿罗定理以及如何优美地证明阿罗定理。
阿罗定理中的符号表述
$N$ 是代理者的集合。
$O$ 是候选项的有限集合，阿罗定理中限定 $∣ O ∣ > = 3$
$L$ 是针对于候选项 $O$ 的所有可能的严格偏好顺序集。研究内容设定为严格偏好的目的是简化问题，严格偏好是偏好条件的强化，如果满足条件的情况下严格偏好都无法实现合理的社会选择函数，那么一般偏好更无法实现。
$[\succ]$ 是一个偏好序列的组合。是 $L^n$ 的子集（ $L^n$ 表示 $L$ 的n次方，即n个 $L$ 的笛卡尔积）。作为社会福利函数的输入。
$\succ_W$ 是社会福利函数输出的群体偏好序列。 $_{W([\succ'])}$ 表示接受输入 $[\succ']的社会福利函数$ W$产生的输出。
帕累托有效的形式化表述

$W$ is Pareto efficient if for any $o_1,o_2\in O,\forall i \space o_1\succ_i o_2$ implies that $o_1\succ_W o_2$ 。

也就是说如果所有的代理者都认可认为 $a\succ b$ ，那么在最终社会福利函数产生的群体偏好序列中也一定是 $a\succ b$ 。

无关备选独立性的形式化表述

$W$ is independent of irrelevant alternatives if,for any $o_1,o_2\in O$ and any two preference profiles $[\succ'],[\succ''] \in L^n,\forall i(o_1\succ_i'o_2 \space iff \space o_1\succ_i'' o_2 )$ implies that $(o_1\succ_{W([\succ'])} o_2 \space iff \space o_1\succ_{W([\succ''])}o_2$ .

社会选择函数输出的序列中任意两个候选项的顺序，只与代理者中对应两个候选项的偏好相关。

无决策者的形式化表述

$W$ does not have a dictator if $\neg \exist i \forall o_1,o_2(o_1\succ_i o_2\to o_1\succ_W o_2)$

也就是说不存在一个代理者 $i$ ，使得其针对所有 $o_1,o_2$ 的偏好都直接决定最终社会选择函数的输出排序。

阿罗定理的形式化表述

Any social welfare function $W$ that is Pareto efficient and independent of irrelevant alternatives is dictatorial.

任何社会福利函数 $W$ ，只要同时满足帕累托有效以及无关备选独立性，就一定是存在独裁者的。

阿罗定理的形式化证明过程
阿罗定理的形式化证明过程共分为四个步骤。
1.如果每一位代理者都将某个候选项 $b$ 放置在自己偏好序列的最高位或者是最低位，那么最终的社会选择序列中 $b$ 要么在最高位要么在最低位。
证明：我们假设，每一位代理者都将 $b$ 放置在自己偏好序列的最高位或者最低位，但是最终序列b处于中间某位置。那么假设在最终序列 $b$ 之上有 $a ， b$ 之下有 $c$ 。下一步我们让每位代理者将自己的 $c$ 全部调整到 $a$ 之前，根据无关备选独立性 $I I A$ ，由于 $b$ 仍旧处于极端位置，无论怎么调整 $c 、 a$ 的相对位置，都影响各自 $a$ 与 $b 、 b$ 与 $c$ 的相对位置，因此最终序列中仍然满足 $a\succ b,b\succ c$ ，但是还要满足 $c\succ a$ ，这样就存在矛盾了。因此原结论成立。
2.一定存在某个特殊代理者 $n^*$ ，他改变决策可以使得最终序列中 $b$ 的位置由底端移动到顶端。
证明：假设一开始所有的代理者都将 $b$ 排在底端，那么根据PE，最终序列 $b$ 一定在底端。那么如果所有决策者都将 $b$ 排在顶端，那么根据PE，最终序列 $b$ 一定也在顶端。我们从第一个代理者开始，将其 $b$ 的位置从底端移动到顶端，当前步骤没有变化就执行下一代理者，最终改变某个代理者后，最终序列中 $b$ 的位置产生改变，该代理者就是 $n^*$ 。根据第1条，所有代理者的 $b$ 都在极端位置，那么最终序列的 $b$ 也在极端位置。因此改变 $n^*$ 后，最终序列的 $b$ 一定是从底端移动到顶端。
3. $n^*$ 针对于不包含 $b$ 的任意二元对 $a 、 c$ 都是独裁者
证明：偏好集 $[\succ_1]$ ： $n^*$ 从底端改变到顶端之前。偏好集 $[\succ_2]$ ： $n^*$ 从底端改变到顶端之后。偏好集 $[\succ_3]$ ：在 $[\succ_2]$ 的基础上，将 $n^*$ 的 $a$ 移动到 $b$ 之前，其他人在保证 $b$ 在极端位置的前提下，随便安排 $a 与 c$ 的相对位置。首先比较 $[\succ_1]$ 与 $[\succ_3]$ ， $[\succ_1]$ 中 $a\succ b$ ，并且 $[\succ_1]$ 与 $[\succ_3]$ 中每一位代理者的 $a 与 b$ 的相对位置都相同，因此在 $[\succ_3]$ 中 $a\succ b$ 。通过比较 $[\succ_2]$ 与 $[\succ_3]$ 同理可得，在 $[\succ_3]$ 中 $b\succ c$ ，通过传递性可得在 $[\succ_3]$ 中 $a\succ c$ 。偏好集 $[\succ_4]$ ：在 $[\succ_3]$ 的基础上，将 $n^*$ 的 $a$ 只要放在 $c$ 之上就好，然后让其他代理者随便摆放 $b$ 的位置。比较 $[\succ_3]$ 与 $[\succ_4]$ ，所有代理者针对 $a 与 c$ 都有相同的相对顺序，根据IIA，在 $[\succ_4]$ 中也有 $a\succ c$ 。因此我们得到在 $[\succ_4]$ 中，除了 $n^*$ 之外，其他人的偏好是完全随机的，只有 $n^*$ 中决定 $a\succ c$ ，在最终序列中也有 $a\succ c$ ，因此原结论成立。
4. $n^*$ 是所有二元对的独裁者，也是真个投票博弈的独裁者。
证明：根据结论2，假设 $n^{**}$ 是 $c$ 的关键人物，根据结论3， $n^{**}$ 是不包含 $c$ 的二元对 $\alpha\beta$ 的独裁者， $a, b$ 是 $\alpha\beta$ 的特例。我们知道 $n^*$ 可以影响 $a, b$ 的最终相对位置。因此 $n^{**}$ 与 $n^*$ 实际上是一个人。也就是说存在一个代理者 $n^*$ 是所有二元对的独裁者。

1-6 Impossibility of Non-Paradoxical Social Choice Functions

之前的章节我们证明了，要想有一个合理公平的社会福利函数，满足帕累托有效以及无关备选独立性，我们就不可避免地产生独裁者。那是不是社会福利函数要求太高，需要完整产生选择排序，那么简化后地社会选择函数，只需要产生一个最终地胜利者，可不可能实现合理公平的社会选择函数呢？——答案同样是否定的。
弱帕累托有效 Weak Pareto Efficiency

如果在所有代理者的偏好里都有， $o_1\succ o_2$ ，那么无论如何社会选择函数都不会选择 $o_2$ 作为最后的胜利者。

单调性 Monotonicity

在原来的偏好集合中， $o$ 是最终的胜利者。如果统一增加对于候选者的支持之后， $o$ 应该还是保持胜利者身份。

独裁者 Dictatorship

如果存在某个代理者，其最佳选择就是最后社会选择函数的输出，那么该代理者就是独裁者。

Muller-Satterthwaite 定理

以上三者不可同时成立。也就是说如果某个社会选择函数满足弱帕累托最优以及单调性，那么他一定是拥有独裁者的。

1-7 Social Choice：Single-Peaked Preferences

本节我们将看一种特殊偏好类型——单峰偏好，该偏好类型给社会选择增添了很强的限制，因此投票机制获得了优秀的性质。单峰偏好的意思是，每一位代理者对于候选项的偏好都可以从左到右单调排序，有一个最为偏好的选择(效用峰值），而从这个方案向任何方面的偏离，代理者的偏好程度或效用都是递减的。
中位代理者的最优偏好是全局符合孔多塞一致性的优胜者。
布莱克证明了如果假设各个选民的偏好都是单峰偏好，那么最终投票的结果就可以避免阿罗悖论，社会成员个人的偏好之和可以得出确定的唯一的社会总体偏好，而这种社会总体偏好恰好是个人偏好处于所有选民偏好峰的中点上的选民，高于他偏好的选民数量和低于他偏好的选民数量正好相等，这也就是著名的中间投票人模式

2-1 Mechanism Design：Taste

本章节我们开始接触学习机制设计。之前的博弈论学习过程中我们都是在现有的规则下，分析该博弈游戏的均衡与收益。现在我们将进行反过程，在考虑着均衡与收益的前提下设计博弈游戏的机制与规则。

2-2 Mechanism Design：Implementation

机制设计也被称作实施理论、逆博弈论。
贝叶斯博弈设定 Bayesian Game Setting
设定是指我们设计机制的一个环境与基础。贝叶斯博弈设定的意思是，我们设计机制的基础是一个不完全信息博弈，大家互相不知道各自的类型以及效用。

A Bayesian game setting is a tuple $(N,O,\Theta,p,u)$ ,where
$N$ 是代理者的有限集合。
$O$ 是结果的集合。
$\Theta=\Theta_1 \times \Theta_2 \times ... \times \Theta_n$ 是参与者的类型向量。
$p$ 是针对于 $\Theta$ 的公共先验概率分布。
$u=(u_1,...,u_n),u_i:O\times \Theta \to R$ 是每一位代理者的效用函数。针对每一位代理者，一个确定的结果，一个确定的类型，决定一个确定的效用。

机制 Mechanism

A mechanism(for a Bayesian game setting $(N,O,\Theta,p,u)$ ) is a pair $(A, M)$ ,where
$A=A_1\times ...\times A_n$ ， $A_i$ 是第 $i$ 个代理者的可能动作集合。
$M:A\to \Pi(O)$ ，每个动作组合映射到一个结果的概率分布（为什么是概率分布不是确切结果？只确定了动作组合还没确定类型组合）

在贝叶斯博弈设定的基础上添加了机制的两大要素，就构成了完整的贝叶斯博弈。

机制设计的目的是？
机制设计者类似于游戏规则的制定者与掌控者，我们通过博弈论分析的方法可以提前预知博弈的走向，从而根据我们想要的结果来制定机制。我们设计机制是为了让代理者们按照我们设想的方式执行决策，因为代理者们都是理性的，会按照博弈论的思维方式“上钩”。
我们可以将机制设计理解为以下几个版本：
1.看作一个最优化问题，前提是部分输入的值是未知的。
2.看作从贝叶斯博弈的集合中挑选出一个贝叶斯博弈来，最大化某个性能指标。
3.实施了一个社会选择函数，前提是设计者并不知道代理者的偏好，并且代理者可能会撒谎。
占优策略机制实施 Implementation in Dominant Strategies

Given a Bayesian game setting $(N,O,\Theta,p,u)$ ,a mechanism $(A, M)$ is an implementation in dominant strategies of a social choice function $C$ (over $N$ and $O$ ) if for any vector of utility functions $u$ ,the game has an equilibrium in dominant strategies,and in any such equilibrium $a^*$ we have $M(a^*)=C(u)$ .

在某个贝叶斯博弈设定的基础之上，某个机制在满足某种条件下可以被理解为某个社会选择函数在占优策略下的实施。该条件是：由贝叶斯博弈设定+机制得到的完整贝叶斯博弈，针对每一个效用向量，该博弈都拥有占优策略均衡，那么在每一个占优策略均衡中都有均衡策略在机制中映射结果，与社会选择函数针对该效用向量的映射结果相同。
我的理解是我们为了让实际向我们设想的方向发展，社会选择函数表达了实际代理者们的发展方向，而机制中的映射表达了我们设想的发展方向。

贝叶斯纳什均衡机制实施 Implementation in Bayes-Nash equilibrium

Given a Bayesian game setting $(N,O,\Theta,p,u)$ ,a mechanism $(A, M)$ is an implementation in Bayes-Nash quilibrium of a social choice function $C (N, O)$ if there exists a Bayes-Nash equilibrium of the game of incomplete information $(N,A,\Theta,p,u)$ such that for every $\theta \in \Theta$ and every action profile $\in A$ that can arise given type profile $\theta$ in this equilibrium,we have that $M(a)=C(u(.,\theta))$

这个定义是上述占优策略机制实施的松弛版本，要求实现的均衡是贝叶斯纳什均衡即可，不一定是很难达成的占优策略均衡。

贝叶斯纳什实施存在的问题
我的理解是：均衡对于某个博弈来说类似于一个沼泽，吸引代理者们朝这个方向决策，并且如果代理者足够理性且精明的话也是一定会陷入某个沼泽。而机制设计就好似在沼泽中设置陷阱，通过吸引代理者们陷入沼泽而获利。机制设计的目的就是让代理者们的实际决策路线贴合于所设计的博弈论均衡。
如果存在多个贝叶斯纳什均衡，作为机制设计者，我们应该期待代理者们陷入哪一个均衡呢？代理者们可能会失去合作从而没能成功陷入均衡。还可能有非对称均衡存在（信息非对称性，我对你的了解程度不同于你对我的了解程度）。以上这些因素多可能让机制无法按照期望地发挥作用。作为改进，我们可以要求期望的结果出现在唯一的一个均衡中、在每一个均衡中、在至少一个均衡中。
改进方法：
Symmetric Bayes-Nash implementation 对称贝叶斯纳什机制实施
Ex-post implementation 延后机制实施
机制实施的两种形式
1.直接实施：所有代理者同时向中心发送信息，中心决定是否展示他们的类型。
2.间接实施：代理者向中心发送一序列的消息；之前发送的信息部分被展示。

2-3 Mechanism Design：Examples

之前章节的纯理论内容晦涩难懂，让我们来深入一个例子来具体了解机制设计的内容与思想。
例子的贝叶斯博弈设定是一个投票选举。
$N=\{1,2,...,n\}$ 是所有投票的参与者。
$O=\{a,b,c\}$ 是结果的集合，也是候选项的集合。
类型、效用与分布：每个代理者的自己的类型 $\theta_i$ 完全代表了这个代理者对于候选项的偏好。
$\Theta=\{\Theta_1,...,\Theta_n\},\Theta_i={\theta_1,\theta_2,\theta_3},\Theta_i$ 是指第 $i$ 个代理者的所有类型可能集合。
1. $\theta_1$ 认为a的效用为3，b的效用为2，c的效用为1，形式化表示如下：（ $p = 0.49$ ）
$u(a,\theta_1)=3,u(b,\theta_1)=2,u(c,\theta_1)=1$
2. $\theta_2$ 认为b的效用为3，a的效用为2，c的效用为1（ $p = 0.49$ ）
3. $\theta_3$ 认为c的效用为3，a的效用为2，b的效用为1（ $p = 0.02$ ）
采取的机制是：多数投票机制
$A=A_1\times ...\times A_n,A_i=\{a,b,c\}$
$M=A\to \Pi(O)$ :
如果不存在平票那么选择票数最多的候选项 $M (b, b, c) = b$
如果存在平票，那么平票的候选项等概率随机产生优胜者。
该贝叶斯博弈中不存在占优策略，为什么？
占优策略是指，无论其他人作何决策，自己所选择的当前决策就是最优决策，任凭风吹雨打，我自岿然不动。那么我们看看，在该贝叶斯博弈中其他代理者不同决策背景，是否影响自己的最优决策选择。
我们假设代理者的人数是奇数（防止两位候选者平票失去意义）并且至少为5，某位代理者的偏好类型为 $\theta_3(c:3,a:2,b:1)$ 。
如果剩余代理者一半投给 $a$ ，一半投给 $b$ ，那么对于该代理者来说最优决策就是投给 $a$ 。（虽然自己最喜欢 $c$ ，但是投了之后还是 $a, b$ 随机一个，不如直接投 $a$ 取一个次优解）
如果剩余代理者一半投给 $c$ ，一半投给 $a$ ，那么对于该代理者来说最优决策就是投给 $c$ 。
该代理者的最优决策取决于其他决策者的决策选择，故不存在占优策略。
该贝叶斯博弈中存在多个均衡
所有代理者都投票给 $a$ 就是一个均衡。（把 $a$ 作为第一偏好的代理者肯定不会偏离，把 $a$ 作为第二偏好的代理者想偏离但是不会获得更大的收益，因此也不会偏离）
所有代理者都投票给 $b$ 也是一个均衡。
所有代理者都投票给 $c$ 也是一个均衡。
迪韦尔热定律 Duverger’s Law：
在该博弈中，分别有 $49\%,49\%$ 的人持有 $\theta_1,\theta_2$ 偏好，那么他们分别会投票给 $a, b$ ，剩下 $2\%$ 的人虽然想投 $c$ ，不过无济于事，因此也会选择投给 $a$ 。
这个现象在社会选择理论中称为迪韦尔热定律，政治生活中的表述为：多数选举制导向两党制。
多数制中的直接机制 Direct Mechanism
每位代理者向中心报告自己的类型，类型也就代表了自己的偏好，中心知道类型之后便可以将类型转化为投票结果，比如说类型是 $\theta_1$ 转化成给 $a$ 投票。
但是这个直接机制是可以操纵的，也就是存在欺骗。

2-4 Revelation Principle

本章节我们来学习机制设计中的核心理念——显示原理。
社会选择函数可以简单理解为一个输入到输出的映射；机制设计以实施社会选择函数是指，设计某个机制使得该社会选择函数对应的映射得以实现。具体来说所设计的机制某个均衡点实现了社会选择函数的输入输出映射。
显示原理的内容：如果某个社会选择函数（一组输入输出映射）可以由某个机制实施，那么该社会选择函数一定可以被某个说真话的直接机制（truthful,direct mechanism）实施。任何间接机制下的贝叶斯纳什均衡都可以通过直接机制下的贝叶斯纳什均衡来实现。
显示原理的形象理解：
间接机制可以看作不完美信息贝叶斯扩展博弈，直接机制可以看作同步贝叶斯博弈。
说真话是指代理者根据个人认知类型，动作偏好序列是 $a\succ b \succ c$ ，最终该代理者做出的决策也是 $a$ ，也就是决策与个人的认知偏好一致，决策可以完全代表个人认知类型。而不说真话是指，代理者不一定按照个人认知类型决定的偏好做出决策，而是通过复杂的博弈心理，从而陷入某个均衡做出违背个人偏好的决策。
不说真话的任意机制
$s_1(\theta_1),s_n(\theta_n)$ 都被认为该贝叶斯博弈中代理者各自的均衡策略，都有可能不说真话，也就是话可能均衡策略违背代理者个人的偏好策略。中间的原始机制可能比较复杂，设计多过程多阶段，反正最终满足输入输出映射即可。

说真话的直接机制
$s_1'(\theta_1),s_n'(\theta_n)$ 是说真话的策略，也就是用代理者各自认知类型直接决定的策略。 $s_1(s_1'(\theta_1)),s_n(s_n'(\theta_n))$ 仍旧是原始机制的均衡策略。我们知道原始机制，接收原始机制的均衡策略就可以输出理想结果，那么我们设计新机制，在原始机制的前端添加一步映射，根据可以代表每个代理者真实类型的策略获得原始机制的均衡策略，新机制可以理解为一个同步贝叶斯博弈。

生活中的例子：
比如说收个人所得税。原始机制规定每个代理者上报个人收入，并将个人所报收入的 $40\%$ 上交给国家。假设我们作为机制的设计者，我们想要使得每个代理者都自私到一分钱不上交。那么在原始机制实施下，每个代理者的均衡策略可能是汇报自己收入为 $0$ ，那么上交 $0$ ，那么可以达到理想结果。那么在说真话的直接机制中，我们可以规定无论代理者汇报收入多少，我们都要求代理者上交 $0$ 就可以了，因此代理者就可以选择说真话。
显示原理使得代理者们不需要去撒谎，因为所设计的直接机制已经在他们的利益角度代替他们撒谎了。
显示原理存在的问题
1.原始机制与新机制的均衡集可能不完全相同。原始机制中的贝叶斯均衡在新机制中肯定存在对应，但是新机制可能会引入一些新的均衡，从而破坏该映射。
2.显示原理对于机制设计意义重大。间接机制往往比较复杂而且还不说真话，对于分析来说困难重重。显示原理为简化分析提供了可能，可以将原始机制转化为说真话的直接机制分析，且不损失一般性。

2-5 Revelation Principle：Examples

本节我们通过一个例子来加深一下对于显示原理的理解。
我们首先来回忆一下过去讲过的，多数制投票机制：
$N=\{1,2,...,n\}$ 是投票者的集合。
$O=\{a,b,c\}$ 是候选者的集合。
$\Theta_i=\{\theta_1,\theta_2,\theta_3\}$
其中 $\theta_1:a=3,b=2,c=1,\theta_2:b=3,a=2,c=1,\theta_3:c=3,a=2,b=1$
多数制的投票规则：每位代理者都投出自己最喜欢的一个候选者，得票最高的获胜。如果最高票存在平票，那么平票者等概率随机产生获胜者。
该贝叶斯博弈中存在着多个均衡，比如所有人都投票给 $a$ 就是其中一个均衡。
全投票给 $a$ 的均衡对应的直接机制：
间接机制中，每位代理者向中心提交个人的投票结果；直接机制中，每位代理者向中心提交个人的认知类型，或者说是偏好序列（不一定真实）。直接机制中，中心将每个人提交的认知类型转换为投票结果。
针对于全投票给 $a$ 的均衡，通过显示原理可以转化为如下说真话的直接机制：
如果该代理者上报类型为 $\theta_1$ ，那么转化为投票 $a$
如果该代理者上报类型为 $\theta_2$ ，那么转化为投票 $a$
如果该代理者上报类型为 $\theta_3$ ，那么转化为投票 $a$
由此可得不论代理者自己上报什么类型，最终都是投票给 $a$ ，因此代理者在上报类型环节没必要撒谎，说真话即可，根据均衡的理念理解，自己说假话没有更大的收益倾向。
两党制的均衡对应的直接机制：
针对于两党制投票规则：只有两个候选项 $a, b$ ， $\theta_1$ 肯定投给 $a$ ， $\theta_2$ 肯定投给 $b$ ， $\theta_3$ 会投给次优项 $a$ 。对应的说真话的直接机制为：
如果该代理者上报类型为 $\theta_1$ ，那么转化为投票 $a$
如果该代理者上报类型为 $\theta_2$ ，那么转化为投票 $b$
如果该代理者上报类型为 $\theta_3$ ，那么转化为投票 $a$
代理者类型为 $\theta_1,\theta_2$ 肯定不会撒谎，都想让自己的帮派更加壮大；代理者类型为 $\theta_3$ 撒谎也不会获得更大的收益，因此不如直接说真话。

2-6 Impossibility of General,Dominant-Strategy Implementation

我们想要设计一个机制，使得参与者们都说真话，坦诚地说出自己的认知类型（偏好序列），撒谎对于他们来说不会带来额外收益。我们想要通过占优策略实现，也就是说每位代理者的个人偏好不受他人影响。
根据上节学习的显示原理：如果某个间接机制是说真话的（truthful）、并且是有占优策略实现的，那么必然存在一个社会选择函数或者说是一个直接机制（在这个角度，社会选择函数与直接机制是等价的，都以真实的认知类型为输入，社会选择结果为输出）。因此如果我们在考虑占优策略实施，那么我们仅仅考虑说真话的、基于占优策略实施的社会选择函数（直接机制）即可，也叫作防操作性（non-manipulable）、防串谋（strategy-proof）的社会选择函数。
Gibbard-Satterthwaite theorem
某个社会选择函数 $C$ 要求，其候选项个数大于等于3，并且是满射（针对每种结果都至少存在一个对应的偏好组合）的。
说真话的直接机制 + 占优策略实施 $\Longrightarrow$ 防串谋 + 防操纵的社会选择函数
（操纵是指代理者可以通过说假话的方式获利；串谋是指部分几个代理者联合打压其他决策者）
说真话的直接机制 + 占优策略实施 $\Longrightarrow$ 具有独裁者的社会选择函数
因此如果某个社会选择函数是不具有独裁者的，并且拥有三个及以上的候选者，那么一定是可操纵的或者是可串谋的。
定理表明：针对所有代理者采用说真话的、直接机制实施是不可能的，除非社会选择函数是具有独裁者的。
想要打破这个定理的约束，我们只能通过放宽约束条件：
1.不用占优策略实施，而是贝叶斯纳什实施。
2.代理者可以拥有任意偏好。

2-7 Transferable Utility：

可转移效用情形设定中，人们有着所谓的拟线性偏好。可转移效用对于机制设计来说具有带来很大的收益。
拟线性偏好与可转移效用
$\times R^n$ ：博弈的结果由两部分的笛卡尔积组成，第一部分是集体决策，第二部分是长度为 $n$ 的实数向量，第二部分代表每位代理者的效用支付或者补偿。
$u_i(o,\theta) = u_i(x,\theta)-p_i$ ： $u_i(o,\theta)$ 是第 $i$ 位代理者确定结果 $o$ 与类型 $\theta$ 后的效用值，也就是实际效用值； $u_i(x,\theta)$ 是第 $i$ 位代理者确定群体决策 $x$ 与类型 $\theta$ 后的效用值； $p_i$ 是第 $i$ 位代理者效用补偿或者支付数值，正数位效用支付，负数为效用补偿。
该机制设定也就是说，每位代理者的最终效用由两部分组成，一部分是由群体决策产生的收益，另一部分是规则设定的效用支付或者补偿。
为什么叫作拟线性偏好呢？我的理解是拟线性是线性的基础上加一个常量。在这里理解就是，每位代理者的效用不再是由所有代理者的偏好线性决定，还与效用的支付或者补偿有关。因此在该设定下，决策者可能不单单考虑决策的组合，还会考虑到支付、补偿的权衡。

2-8 Transferable Utility Example：

例子的背景如下：市民集合 $N=\{1,..,n\}$ ，其中 $n$ 是奇数（防止投票中不必要的麻烦）。所有市民投票决定某项市政工程是否施行， $O=\{0,1\}$ 其中 $0$ 代表不同意， $1$ 代表同意。个人认知类型 $\theta_i$ 代表了每位代理者的个人利益，也是自己对于结果的估值函数。假设有两种认知类型，一种是喜欢该工程的，能从该工程施行中获利的；一种是不喜欢该工程的，从该工程施行中失利的。
喜欢该工程： $v_i(0)=0,v_i(1)=4,v_i=(0,4)$ ，也就是说如果工程落地，他最多愿意付出 $4$ 个单位的支付。
不喜欢该工程： $v_i(0)=0,v_i(1)=-2,v_i=(0,-2)$
一种可转移效用机制
每个人向中心汇报自己的认知类型，如果多数人宣称自己的类型为 $v_i=(0,4)$ ，那么社会决策 $x = 1$ ，设定不进行效用的支付与补偿。如果多数人宣称自己的类型为 $v_i=(0,-2)$ ，那么社会决策 $x = 0$ ，同样设定不进行效用的支付与补偿。
在这里，对于每一位代理者来说，说真话一定是一个均衡策略（说假话不会有任何获利趋势）。但是存在大量的负效用，并没有最大化社会总效用。
另一种可转移效用机制
考虑到喜欢该工程的人，如果工程落地可以获利 $4$ 单位，但是不喜欢该工程的人，如果工程落地会失利 $2$ 个单位。因此为了最大化社会效用，相较于喜欢该工程的人，不喜欢该工程的人投票权重应该是两倍。
制定规则：如果宣称喜欢该工程的人人数大于总人数的 $1 / 3$ ，那么社会决策 $x = 1$ ，规定喜欢该该工程的人需要支付效用 $p_i=\frac{2(n-m)}{m}$ ，不喜欢该工程的人获得补偿效用 $p_i=-2$ 。否则，社会决策 $x = 0$ ，不存在负效用不需要任何效用支付与补偿。
该机制中不存在负效用，同时也最大化了社会总效用，但是说真话不再是一个均衡策略比如说群体中投赞成与反对票比例相近，某位喜欢该工程的代理者就需要考虑，是投赞成票（获利高但风险大，同时需要支付效用）还是投反对票（可能获得补偿）。

2-9 Mechanism Design as an Optimization Problem：

Truthfulness

如果该机制是直接机制并且对于 $\forall i \forall v_i$ ，代理者 $i$ 的均衡策略是 $\hat{v_i}=v_i$ ，那么该可转移效用机制就是真实的（truthful）。

Efficiency

如果该机制在均衡中选择到的决策 $x$ 使得： $\forall v \forall x',\sum_iv_i(x)>=\sum_i v_i(x')$ ，那么该可转移效用机制就是严格帕累托有效的，简称有效。

经济有效性又称为社会福利最大化。

Budget Balance

预算均衡： $\forall v,\sum_i p_i(s(v))=0$ （ $s$ 是均衡策略）
弱预算均衡： $\forall v,\sum_i p_i(s(v))>=0$
事前（弱）预算均衡： $E_v \sum_i p_i(s(v))=0(>=0)$

Individual-Rationality

事中个体理性： $\forall i \forall v_i,E_{v_{-i}|v_i}v_i(\chi(s_i(v_i),s_{-i}(v_{-i})))-p_i(s_i(v_i),s_{-i}(v_{-i}))>=0$
事后个体理性： $\forall i \forall v,v_i(\chi(s(v)))-p_i(s(v))>=0$
事后个体理性是一个更强的条件。由事后个体理性可以得到事中个体理性，但是由事中个体理性不可得到事后个体理性。

Tractability

如果对于 $\forall \hat{v},\chi(\hat{v}),p(\hat{v})$ 都可以在多项式时间内计算出来，那么就是可计算的。

以上几个条件同时满足的也有很多机制，也就是说满足以上条件也有一个不小的机制空间，那么我们该如何选择出一个机制呢？那就是设定目标函数，可以讲目标函数设定为最大化效用支付。

3-1 VCG：Taste

本章节开始，我们学习VCG（Vickrey-Clarke-Groves）机制。VCG机制是机制设计中一大重要的研究成果，可以解决许多种类的机制设计问题。机制设计者想要最大化参与者的总估值效用，估值效用来源于每位参与者的个人申报，而申报有可能真实有可能说谎。因此VCG机制通过设计效用支付补偿的方法，使得参与者愿意说真话，设计者就方便最大化参与者总估值效用。VCG让参与者说真话变为占优策略。

3-2 VCG：Vickrey-Clarke-Groves Mechanisms：Definitions

VCG机制是机制设计中研究最为深入，用途最为广泛的一个领域。
在拟线性可转移效用的设定下，一个直接机制包括一个选择规则（choice rule）、一个支付规则（payment rule）。VCG机制使得说真话就是占优策略，并且使得群体做出有效的决策，最大化参与者总效用。除此之外添加一些额外的条件可以达到，weak budget balance 弱预算平衡，interim individual rationality 事中个体理性。
Groves mechanisms（简化版的VCG机制）

直接机制 $(\chi,p)$ ，满足以下条件的机制是 Groves mechanisms：
社会选择 $\chi=(x_1,x_2,...,x_k)$ 包含社会选择的所有可能，但这个向量最终只确定一种选择。
支付向量 $p=(p_1,p_2,...,p_n)$ 包含每一位参与者的支付数值，正值为支付，负值为补偿。
选择规则： $\chi(\hat{v}) \in arg \space max_x \sum_i\hat{v_i}(x)$ 。 $\chi(\hat{v})$ 代表根据代理者的估值向量所决定的最优社会决策，该社会决策是最大化所有参与者的估值效用所对应的决策 $x$ 。为什么是 $\in$ ，最大值所对应的决策不一定唯一。
支付规则： $p_i(\hat{v})=h_i(\hat{v_{-i}})-\sum_{j\neq i}\hat{v_j}(\chi(\hat{v}))$

Vickrey-Clarke-Groves Mechanism AKA Pivotal mechanism ：VCG机制或关键机制

VCG机制或者说关键机制 $(\chi,p)$ ，满足以下条件的机制是 Groves mechanisms：
选择规则： $\chi(\hat{v}) \in arg \space max_x \sum_i\hat{v_i}(x)$ 。
支付规则： $p_i(\hat{v})=max_x \sum_{j\neq i}\hat{v_j}(x)-\sum_{j\neq i}\hat{v_j}(\chi(\hat{v}))$ 。 $p_i(\hat{v})$ 是指输入所有参与者的估值函数之后，第 $i$ 位参与者的效用支付数值，正值为支付，负值为补偿。第 $i$ 位代理者的支付数值定义为，不考虑 $i$ 的群体中寻找一个社会选择最大化除 $i$ 以外参与者的整体效用，减去，上式考虑 $i$ 的群体的社会选择除了 $i$ 以外代理者的整体效用。

这里的支付规则设定为，某位代理者从不参与到参与，针对社会选择所带来的影响。因此该代理者需要支付因为他的到来，所造成的“损失”（可正可负）。
谁的支付数值为0？不会影响社会选择的代理者。
谁的支付数值大于0？会对社会选择带来消极影响的代理者。
谁的支付数值小于0（获得补偿）？会对社会选择带来积极影响的代理者。

VCG and Groves Mechanisms：Truthfulness

在任何Groves机制，或者是关键机制（VCG机制）中，讲真话永远都是占优策略。

证明过程：
首先说明 $\hat{v_i}$ 代表第 $i$ 个代理者的估值函数，或者说代表了自己的认知类型，价值取向。每位代理者向中心汇报自己的价值去向，中心依据此制定社会选择 $\chi(\hat{v_i},\hat{\hat{v_{-i}}})$ 以及支付向量 $p_i(\hat{v_i},\hat{v_{-i}})$ 。每位代理者的效用由两部分构成，第一部分由社会选择以及自己的实际认知类型决定 $v_i(\chi(\hat{v_i},\hat{\hat{v_{-i}}}))$ ，第二部分就是上述支付向量。
1.我们考虑代理者 $i$ 通过调整自己上报的估值函数 $\hat{v_i}$ 来最大化个人效用：
$max_{\hat{v_i}}(v_i(\chi(\hat{v_i},\hat{\hat{v_{-i}}}))-p_i(\hat{v_i},\hat{v_{-i}}))$
2.我们用 $p_i(\hat{v})=h_i(\hat{v_{-i}})-\sum_{j\neq i}\hat{v_j}(\chi(\hat{v}))$ 替换上式
$max_{\hat{v_i}}(v_i(\chi(\hat{v_i},\hat{\hat{v_{-i}}}))-h_i(\hat{v_{-i}})+\sum_{j\neq i}\hat{v_j}(\chi(\hat{v})))$
3.我们发现 $h_i(\hat{v_{-i}})$ 与 $\hat{v_i}$ 无关，因此可以删去该项，得到：
$max_{\hat{v_i}}(v_i(\chi(\hat{v_i},\hat{\hat{v_{-i}}}))+\sum_{j\neq i}\hat{v_j}(\chi(\hat{v})))$
4.我们发现上式其实就是Groves机制中的社会选择机制。从而证明最大化个人效用的社会选择与Groves机制中最大化社会总效用的社会选择实际上是重合的，从而证明说真话就是个人的占优策略。

Groves机制唯一性定理：

只有在Groves机制中，说真话才会是每位代理者的占优策略，也就是说最大化个人效用与最大化整体效用重叠。

Groves机制虽然使得说真话成为每位代理者的占优策略，每位代理者都情愿汇报真实的估值函数，中心汇总上报的估值函数即可做出最大化整体效用的社会决策。但Groves机制不一定总是有效的，因为支付的收支不平等，可能更多收取支付，或者更多付出支出。

3-3 VCG：Example

我们考虑如下的运输路线的问题，社会选择任务是找到一条最短的路线从A到F。显而易见最短的路线依次经过：A、B、E、F。在VCG机制中，所有边的代价汇报都是真实的，我们也获得了对应的最优社会选择，接下来我们计算一下所有边的支付数值。
首先来看边AC。我们根据VCG机制的支付设计规则来分析一下。考虑AC存在下的最优社会选择路径长度为5，由于代价是负值，因此该值为-5。不考虑AC存在下的最优社会选择还是5，该值也是-5。因此 $p_{AC}=(-5)-(-5)=0$ 。同理可得BD,CE,CF,DF都是0，也就说他们不重要。
再来分析AB。考虑AB存在下最优社会选择路径为ABEF，除AB外代价值为-2。不考虑AB存在下的最优社会选择为ACEF，对应代价值为-6。故 $p_{AB}=(-6)-(-2)=-4$ 。
$p_{BE}=(-6)-(-4)=-2,p_{EF}=(-7)-(-4)=-3$ 。EF与BE有着相同的路径代价，为何效用补偿不同呢？EF拥有着更大的市场权力，对于其他代理者来说，没有EF的情况要比没有BE的情况更糟糕。

3-4 Limitations of VCG

之前章节充分体现了VCG机制的各种优点，本节将介绍VCG机制的几种局限以及缺点。
1.Privacy
VCG机制要求代理者们完全揭示自己的私人信息。但是代理者们考虑到，暴露多余的私人信息可能会在外来潜在的博弈竞争中损害个人利益，因此代理者们不愿意完全暴露个人信息。
2.Subceptibility to Collusion
VCG机制中部分代理者容易陷入合谋，合谋的意思是部分小团体合作会带来更大的收益。
考虑一个修桥博弈，一共有三个代理者。我们来计算一下 $A g e n t 1$ 的支付数值，考虑1不存在的情况最优决策为不修桥效用为250，考虑1存在的情况下最优决策为修桥，除去1以外的总效用为100，故 $p_1=250-100=150$ 。同理可得所有代理者的支付数值。

假设代理者1、2合谋，共同分别提高各自的修桥效用50，结果发现各自的对外支付数值都小了100。代理者1提高个人效用估值，降低了代理者2的支付数值；反之亦然。因此存在合谋现象。
3.VCG is not Frugal
为了达成一系列优美的性质，VCG机制对于效用支付方面并不是节俭的，也就是说可能支付大量效用以达成VCG机制的要求。
性质：VCG机制的总支付效用至少接近于代价第二小的不相交路径
上面的路径代价最小且为 $c$ ，下面的路径是代价第二小且为 $c(1+\epsilon)$ 。每位代理者的支付为 $c(1+\epsilon)-(k-1)\frac{c}{k}$ ，支付效用总和为 $c(1+k\epsilon)$ 接近于代价第二小的路径 $c(1+\epsilon)$ 。因此下面这条路径虽然不影响最优路径选择，但是影响每位代理者的支付效用。
4.Revenue Monotonicity Violated
VCG机制当中可能会违背单调性。何为单调性：按说我们设计的机制，吸引更多的参与者参加，设计者的收入应该是更大的才对。也就是说参与者越多，机制效用总和也就越大（代表参与者们向设计值支付的效用更多）。
分析下图可得，最初设计者可以获得90的效用支付，增添一位参与者之后，设计者就只能获得0点效用支付。该现象违背了上面提到的单调性。
5.Cannot Return All Revenue to Agents
某些机制设计的目的是为了从参与者效用支付方面获利，但有些机制设计只是为了让社会产生最佳选择，而不想个人获利，因此就需要将获利全部返还至参与者。但是VCG机制中，只要多返还了一点效用就会打破VCG机制，产生意想不到的激励作用。因此VCG机制中，无法实现效用的全部返还。

3-5 Individual Rationality and Budget Balance in VCG

我们知道VCG机制可以带来占优策略以及有效分配，但是无法实现个体理性以及预算平衡。（其中个体理性是指，如果参与者可以自己决定参与与否的话，仍旧会选择参与；预算平衡是指机制的设计方面，效用的支付与补偿是相等的，机制设计者不会额外获利或者倒贴）。
两个定义假设：
Choice-set monotonicity 选择集单调

如果 $\forall i \space,X_{-i}\subsetneq X$ ，则满足选择集单调性质。
也就是说把任何一个代理者刨除在外，剩下的整体都不会获得其他的社会选择可能。

No negative externalities 无负外部性

如果 $\forall i \forall x \in X_{-i},v_i(x)>=0$
也就是说抛开任意代理者 $i$ ，代理者 $i$ 对于剩余整体的任何决策都有非负的效用值。

VCG Individual Rationality
个体理性是指，如果参与者可以自行选择参与与否的话，经过计算期望效用之后仍然会选择参与博弈。也就是说每位代理者的期望效用大于0。
$u_i=v_i(\chi(v))-(\sum_{j\neq i} v_j(\chi(v_{-i}))-\sum_{j\neq i} v_j(\chi(v)))$
$u_i=\sum_i v_i(\chi(v))-\sum_{j\neq i}v_j(\chi(v_{-i}))$
$\chi(v)$ 是考虑全体代理者的最优社会选择， $\chi(v_{-i})$ 是考虑除 $i$ 以外全体代理者的最优社会选择，根据选择集单调性可知针对 $- i$ 群体不会有更优的社会选择，因此：
$\sum_i v_i(\chi(v))>=\sum_{j}v_j(\chi(v_{-i}))>=\sum_{j\neq i}v_j(\chi(v_{-i}))$
VCG weak budgt-balanced
在环境满足无个体效应的前提下，VCG机制满足弱预算平衡，也就是说效用支付总和大于等于0。
$\sum_ip_i(v)=\sum_i(\sum_{j\neq i}v_j(\chi(v_{-i}))-\sum_{j\neq i}v_j(\chi(v)))$
根据无个体效应可得：
$\forall i \sum_{j\neq i}v_j(\chi(v_{-i}))>=\sum_{j\neq i}v_j(\chi(v))$
由此可得： $\sum_ip_i(v)>=0$

3-6 The Myerson-Satterthwaite Theorem

该定理的基本内容是：很难通过自愿参与实现有效交易。现实生活中经常出现罢工的现象，为什么罢工？其实就是工人对自己工作的效用认知与老板对工人的效用认知不匹配，导致无法实现有效交易。人们根据私人信息对于交易中的货物有着不同的效用估值，那么我们可能设计一个机制使得有效交易得以实现吗？根据本章节定理，显然是不能的。
场景设置：
1.交换的是一个不可分割的单一单元。卖家初始持有交易物品，并且对物品有着自己的效用估值： $\theta_S\in[0,1]$ 。买家需要该交易物品，并且对物品有着自己的效用估值： $\theta_B \in [0,1]$ 。我们规定买家的效用估值是 $0.1 o r 1$ ，卖家的效用估值是 $0 o r 0.9$ 。那么一共存在四种组合，其中只有 $(0.1, 0.9)$ 无法实现交易（卖家效用估值大于买家，那么货物还是保存在卖家手里更好，或者说买家无法支付卖家的报价）。
2.卖家会提出一个报价 $[0, 1]$ ，买家可以选择接受或者是不接受。报价不同于卖家的心理效用估值。我们假设有两类买家，一类高效用买家 $\theta_B=1$ ，一类低效用买家 $\theta_B=0.1$ ，买家的效用估值代表了自己的价格承受能力。
3.我们来分析一下卖家的报价情况。如果报价0.1，那么无论高、低效用买家都会支付0.1，期望效用就是0.1。如果报价1，那么只有高效用买家会支付1，假设比例各占一半的话，期望效用就是1。如果报价0.5，低效用不会买，高效用也只会支付0.5，因此如果报价高于0.1就不如直接报价1。
4.买家当然都想低价完成交易，无论是高效用买家还是低效用买家。而卖家也只有在确定存在高效用买家的前提下才敢定高价。因此高效用买家可能会假装成低效用买家，从而降低卖家的定价。
Myerson-Satterthwaite 定理

There exist distribution on the buyer’s and seller’s valuations such that: There does not exist any Bayesian incentive-compatible mechanism that is simultaneously efficient,weakly budget balanced and interim individual rational.
不存在一个贝叶斯激励相容机制，使得有效、弱预算均衡、事中个体理性同时成立。

Myerson-Satterthwaite 定理证明
为了简化证明过程，我们设置机制设定如下：卖家的效用估值小于 $v$ ，买家的效用估值大于 $v$ 。并且强制每次都以 $v$ 的价格进行交易，即 $p_B(\theta_B)=v=-p_S(\theta_S)$ 。
我们只需要证明在满足个体理性的同时，不满足激励相容机制即可（也就是说不是所有人都想要说真话）。
根据卖家的个体理性： $p (1, 0.9) > = 0.9$
根据买家的个体理性： $p (0.1, 0) < = 0.1$
根据买家、卖家的个体理性： $p (0.1, 0.9) = 0$
那么 $p (1.0) = ?$
假设卖家真实效用估值是 $\theta_S=0$ ，不会撒谎为 $\theta_S=0.9$ ：
$p (1, 0) / 2 + p (0.1, 0) / 2 > = p (1.0.9) / 2 + p (0.1, 0.9) / 2, p (1, 0) > = 0.8$
假设买家真实效用估值是 $\theta_B=1$ ，不会撒谎为 $\theta_B=0.1$ ：
$(1 - p (1, 0)) / 2 + (1 - p (1, 0.9)) / 2 > = (1 - p (0.1, 0)) / 2 + (1 - p (0.1, 0.9)) / 2, p (1, 0) < = 0.2$
不可能同时成立！故原定理得证。

4-1 Auctions：Taste

从本章节开始，我们接触学习拍卖。

4-2 Auctions：Taxonomy

其实拍卖的含义十分广泛，我们生活中熟知的拍卖只是拍卖的其中一种，拍卖其实就是一种资源分配的机制。同时资源分配在计算机科学领域也是一个基础研究问题。
拍卖有如下几种常见的分类：English,Japanese,Dutch,FIrst-Price,Second-Price,All-Pay
English Auction
英式拍卖的拍卖规则如下：拍卖者初始化一个保留价格，竞拍者大声叫喊提高价格。一旦竞拍者停止叫喊提高价格，那么此时最高价格的竞拍者的以当前价格赢得竞拍。
Japanese Auction
日式拍卖的拍卖规则如下：起初所有竞拍者都一起站着，拍卖者从保留价格开始不断提高竞拍价格，过程中竞拍者可以随时坐下但坐下就不可再站起来，最后站着的一位赢得竞拍。
Dutch Auction
荷兰式拍卖仍旧应用于荷兰的花式交易当中，具体规则如下：拍品价格初始停留在一个比较高的水平，并且不断下降，竞拍者可以随时按下按钮强拍。每位竞拍者都希望以最低的价格赢得竞拍，但等的越久被抢走的概率也就越大，竞拍者需要在二者之间权衡。
First,Second-Price Auctions
密封价格拍卖不像上述的叫价拍卖，竞拍者将自己的价格写在信封里提交。
第一价格密封拍卖：竞拍者将出价写在密封的纸上提交，最终出价最高的人会获得拍品，赢得竞拍的人需要支付自己的出价。
第二价格密封拍卖：竞拍者将出价写在密封的纸上提交，最终出价最高的人会获得拍品，赢得竞拍的人需要支付全场第二高的出价。
All-Pay Auction
竞拍者将出价写在密封的纸上提交，最终出价最高的人会获得拍品，但是全部参与竞拍的人都需要支付自己的出价。
每一个拍卖活动我们都需要确定三大规则：出价规则、信息揭露规则、出清规则。出价规则是指：谁可以出价？出价的形式？出价的限制条件？信息揭露规则是指：何时揭露信息？揭露哪些参与者的哪些信息？出清规则是指：何时终止竞拍？

4-3 Bidding in Second-Price Auctions

第二价格拍卖中的结论：

在第二价格拍卖中说真话是自己的占优策略，也就是说在密封写价格时，只需要所写价格能代表该拍品对自己的真实价值即可。

其中一种比较简单的理解方式是，第二价格拍卖机制是VCG机制的一种特例。在上一章节我们也提到过，VCG机制中支付总和接近于第二小的代价，在这里赢得竞拍者需要支付第二高的价格，也映证了这一点。

该结论的证明过程：
我们假设其他出价者都是随意出价，因为我们要证明说真话是个占优策略，其他出价者的行为就必须是随机的。我们将证明分为两部分：
1.竞拍者 $i$ 真实出价，并且赢得了竞拍。

第一张图中表示了竞拍者 $i$ 的真实心理估值（也就是他的出价）以及当前第二高的出价（也就是他需要支付的价格）。如果他出价高于心理估值，仍旧是以第二高出价支付，不会获得效用提升；如果他出价略低于心理估值但仍赢得竞拍，仍旧是以第二高出价支付，不会获得效用提升；如果他出价低于第二高出价，那么他会失去自己高期望值的拍品。
2.竞拍者 $i$ 真实出价，并且没有赢得竞拍。

第一张图表示了竞拍者 $i$ 的心理估值（真实出价）以及当前最高出价。如果他出价略高，自己仍旧无法赢得竞拍；如果他出价略低，更无法赢得竞拍；如果他出价高过当前第一出价，那么他会以极高的价格拍下一个内心估值很低的拍品，仍旧无法获得效用提升。
密封拍卖相当于静态同步博弈。而英式拍卖、日式拍卖相当于扩展博弈，分析难度更大。

4-4 Bidding in First-Price Auctions

在第二价格竞拍中，竞拍者出价的高低只影响是否赢得拍品，不影响最终的支付价格，因此第二价格竞拍中说真话是占优策略。而在第一价格竞拍中，如果你赢得竞拍就需要支付自己的出价，因此将自己的内心估值作为出价，即便赢得竞拍也不会获得任何效用提升。因此在第一价格竞拍中，不存在占优策略，而是一个贝叶斯纳什均衡。
第一价格拍卖与荷兰式拍卖的等价性
仔细分析，其实第一价格拍卖与荷兰式拍卖在作用与机制上有着等价性。两者的拍卖目的都是，首先保证自己是最高出价者，因为只有最高出价者才可以赢得竞拍，其次要尽量压低自己的出价，这样才可以将自己的收益最大化。
你可能会想荷兰式拍卖是一个扩展形式博弈，但是截至到竞拍者获胜的那一轮，之前博弈轮次的内容都对该轮次没有影响，其实也就相当于一次同步博弈，大家都是在已知之前轮次没有人出价的情况下考虑是否出价。
在第一价格拍卖中，竞拍者的策略需要考虑一个平衡：如果出价过低那么获胜的概率太小，如果出价过高那么个人的收益太小。
第一价格拍卖中均衡理论及证明

在由两个风险中性的竞价者参与的第一价格拍卖中，竞价者的估值是独立同分布的并且服从正则分布 $U (0, 1)$ ，那么 $(\frac{1}{2}v_1,\frac{1}{2}v_2)$ 是一个贝叶斯纳什均衡策略组合。

证明过程：
该博弈过程具有对称性，因此我们设定竞价者 $2$ 出价 $\frac{1}{2}v_2$ ，竞价者 $1$ 出价 $s_1$ 。
当 $v_2<2s_1$ 时，竞价者 $1$ 获得效用 $v_1-s_1$ ，当 $v_2>2s_1$ 时获得效用0。因此获得竞价者 $1$ 的期望效用：
$E[u_1]=\int_0^{2s_1}(v_1-s_1)dv_2+\int_{2s_1}^1(0)dv_2=2v_1s_1-2s_1^2$
$\frac{\partial}{\partial s_1}(2v_1s_1-2s_1^2)=0,s_1=\frac{1}{2}v_1$
因此我们得到当竞价者 $2$ 出价 $1/2v_2$ 时，竞价者 $1$ 的最优策略就是出价 $1/2v_1$ 。

定理由二竞价者拓展到多竞价者
均衡策略组合为 $(\frac{n-1}{n}v_1,...,\frac{n-1}{n}v_n)$ ，证明方法相似。
12

4-5 Revenue Equivalence

本章节我们将要学习收入等价定理，这是拍卖机制中十分关键的一个定理。我们已经学习过了多种拍卖机制，拍卖师可能想知道到底应该选择哪种机制，但是收入等价定理表明，结果与拍卖机制的选择关系不大。
收入等价定理

假设每个风险偏好中性的代理者都针对于拍卖中的单一拍品有着独立私人的估值，且估值都从分布函数 $F$ 中提取。如果任意两个投票机制满足以下两个条件，就称他们符合收入等价定理。
1.在均衡中，拍品都以相同的方式分配。
2.对拍品估值为0的竞拍者期望效用也应该是0。
满足以上条件的两个投票机制，产生相同的期望收益。
事实上该定理可以突破独立私人估值假设，以及单一拍品假设。更加简单的设定只是为了方便表述以及证明。

收入等价定理应用于第一、第二价格拍卖
n次提取中第k大的数的期望值为： $\frac{n+1-k}{n+1}v_{max}$
那么在第二价格拍卖中，卖家的期望收入也就是n次提取中第2大的数期望值为： $\frac{n-1}{n+1}v_{max}$
第一、第二价格拍卖满足收入等价定理的两个条件，因此第一、第二价格拍卖收入等价。假设 $v_i$ 是最高价格，其他 $n - 1$ 个价格都是从分布 $0,v_i]$ 中提取的。第二价格拍卖卖家期望收益可以理解为 $n - 1$ 次独立抽取后的第1大的价格期望： $\frac{n+1-k}{n+1}v_{max}=\frac{(n-1)+1-1}{(n-1)+1}v_i=\frac{n-1}{n}v_i$
收入等价定理的证明过程
两个关键定义：
$\chi(v_i|s)：$ 事中分配概率，在每个人都遵守均衡策略 $s$ 的基础上基于个人估值 $v_i$ 得到赢得拍品分配的概率。
$p_i(v_i|s)：$ 事中期望支付，在每个人都遵守均衡策略 $s$ 的基础上基于个人估值 $v_i$ 所需支付的期望值。
贝叶斯纳什均衡特性定理：

如果所有估值都是从连续分布 $F$ 中提取出来的，并且代理者们都是风险偏好中性的，当策略组合 $s$ 是一个贝叶斯纳什均衡时，成立以下两个条件：
1. $\chi(v_i|s)$ 是单调非减的。（也就是说估值越高，自己获得分配的概率不会递减）
2. $p_i(v_i|s)=v_i\chi(v_1|s)-\int_0^{v_i}\chi(z|s)dz+p_i(0|s)$ ,估值为0的代理者往往支付也是0因此经常成立 $p_i(0|s)=0$ 。
如果 $s$ 是满射的，那么该定理反过来也成立，也就是说满足以上两个条件的策略组合 $s$ 必然在一个贝叶斯纳什均衡里。

该定理的证明分为以下三部分：
1.如果以上两条特征成立并且 $s$ 是满射的，那么 $s$ 是一个BNE。
2.如果 $s$ 是一个BNE，那么单调性成立。
3.如果 $s$ 是一个BNE，那么支付函数成立。
1.如果以上两条特征成立并且 $s$ 是满射的，那么 $s$ 是一个BNE
如果代理者 $i$ 根据自己的真实估值报价，那么期望效用为：
$u_{i,v_i}(v_i|s)=v_i\chi_i(v_i|s)-p_i(v_i|s)$
如果代理者 $i$ 谎报自己的估值报价，那么期望效用为：
$u_{i,v_i}(\hat{v_i}|s)=v_i\chi_i(\hat{v_i}|s)-p_i(\hat{v_i}|s)$
我们要证明的目标是 $u_{i,u_i}(v_i|s)>=u_{i,u_i}(\hat{v_i}|s)$

在这里插入图片描述
上图所示横坐标是估值，纵坐标是对应的赢得竞拍的概率，那么赢得竞拍获得的效用就是对应的阴影部分面积。左图是按照真实估值报价的效用 $v_i\chi_i(v_i|s)$ ，右图是不按照真实估值报价的效用 $v_i\chi(\hat{v_i}|s)$ 。
在这里插入图片描述
上图所示。根据定理中支付的计算公式： $p_i(v_i|s)=v_i\chi_i(v_i|s)-\int_0^{v_i}\chi_i(z|s)dz（p_i(0|s)=0）$ 。该代理者的支付数值就是图中的阴影部分。

在这里插入图片描述

上图所示。根据公式： $u_{i,v_i}(\hat{v_i}|s)=v_i\chi_i(\hat{v_i}|s)-p_i(\hat{v_i}|s)$ 可得，图中阴影部分便是最终效用。对比可得，说真话的效用一定是大于等于右边说假话的。

2.如果 $s$ 是一个BNE，那么单调性成立。
前提条件是 $s$ 是一个BNE，那就说明 $\forall v_i,v_i',u_{i,v_i}(v_i|s)>=u_{i,v_i}(v_i'|s)$ ，展开之后我们得到： $v_i\chi_i(v_i|s)-p_i(v_i|s)>=v_i\chi_i(v_i'|s)-p_i(v_i'|s)$ 。
我们考虑两种估值 $z_1,z_2$ ，
当 $v_i=z_2,v_i'=z_1时$ ， $z_1\chi_i(v_i|s)-p_i(v_i|s)>=z_2\chi_i(v_i'|s)-p_i(v_i'|s)$
当 $v_i=z_1,v_i'=z_2时$ ， $z_2\chi_i(v_i|s)-p_i(v_i|s)>=z_1\chi_i(v_i'|s)-p_i(v_i'|s)$
二式相加消去 $p_i$ 部分得到： $z_2\chi_x(z_2|s)+z_1\chi_i(z_1|s)>=z_2\chi_i(z_1|s)+z_1\chi_i(z_2|s)$
整理得到： $(z_2-z_1)(\chi_i(z_2|s)-\chi_i(z_1|s))>=0$
因此当 $z_2-z_1>0时，\chi_i(z_2|s)-\chi_i(z_1|s)>=0$ ，故单调性得证。
3.如果 $s$ 是一个BNE，那么支付函数成立。
我们考虑两种估值 $z_1,z_2$ ，
当 $v_i=z_2,v_i'=z_1时$ ， $z_1\chi_i(v_i|s)-p_i(v_i|s)>=z_2\chi_i(v_i'|s)-p_i(v_i'|s)$
当 $v_i=z_1,v_i'=z_2时$ ， $z_2\chi_i(v_i|s)-p_i(v_i|s)>=z_1\chi_i(v_i'|s)-p_i(v_i'|s)$
两式联合化简得到：
$z_2(\chi_i(z_2|s)-\chi_i(z_1|s))>=p_i(z_2|s)-p_i(z_1|s)>=z_1(\chi_i(z_2|s)-\chi_i(z_1|s))$
在这里插入图片描述

当 $z_1=0 and z_2=v_i$ 时，就获得了定理中的支付计算公式。

效用等价定理结论
如果两个机制有着相同的分配规则，那么他们也同时需要相同的支付规则。
在均衡中，所有有效的拍卖机制都产生相同的收益。
效用等价定理可以应用于一些其他奇怪的拍卖机制，比如第三价格拍卖。

4-6 Optimal Auctions

迄今为止我们考虑的都是有效拍卖，本章节我们将考虑牺牲一部分拍卖的有效性获取最大化卖家收益。可能损失的一部分有效性表现如下：1.卖家可能无法成功卖出拍品，也就是拍卖无法顺利完成。2.卖家可能会将拍品卖给非最高出价的买家。
在满足（事中、事后）个体理性、贝叶斯激励相容性的基础上，最大化卖家期望收入的拍卖就是最优拍卖。
举一个简单的例子说明最优拍卖
一共有两个竞拍者，每个竞拍者的估值 $v_i$ 都统一符合分布 $[0, 1]$ 。
我们设置一个保留价格 $R$ （只有高于保留价格才可参与到拍卖中），并且采取第二价格拍卖机制。
1.如果两位竞拍者都出价低于 $R$ ，那么无法达成拍卖，卖家收益为0。
2.如果一位竞拍者出价高于 $R$ ，另一位低于 $R$ ，则交易以 $R$ 进行。
3.如果两位竞拍者都出价高于 $R$ ，那么交易就以第二价格进行。
那么保留价格设定为多少的时候，可以最大化卖家收益呢？
1.如果两位竞拍者都出价低于 $R$ ，那么发生的概率为 $R^2$ （ $R\in[0,1]$ 且为均匀分布，既可作为价格也可作为概率），收益是0。
2.如果一位竞拍者的出价高于 $R$ ，一位低于 $R$ ，发生的概率为 $2 R (1 - R)$ ，收益是 $R$ 。
3.如果两位竞拍者的出价都高于 $R$ ，发生概率为 $1-R)^2$ ，收益是 $E[min_{v_i}|min_{v_i}>=R]=\frac{1+2R}{3}$
期望收益为： $2(1-R)R^2+(1-R)^2\frac{1+2R}{3}=\frac{1+3R^2-4R^3}{3}$ ，最优化得 $R=\frac{1}{2}$
当保留价格为 $1 / 2$ 时，收益为 $5 / 12$ ；当保留价格为 $0$ 时，收益为 $1 / 3$ 。
合理确定保留价格，需要考虑如下权衡：
1.有 $1 / 4$ 的概率两位竞拍者都出价低于保留价格，卖家无法获得收益。
2.有 $1 / 2$ 的概率一位竞拍者出价高于保留价格一位低于，卖家此时获得收益提升。
最优拍卖的形式化定义
虚拟估值 virtual valuation

竞价者 $i$ 的虚拟估值为 $\psi_i(v_i)=v_i-\frac{1-F_i(v_i)}{f_i(v_i)}$
我们假设虚拟估值 $\psi_i(v_i)$ 随着真实估值 $v_i$ 的增加而增加（方便后续定理证明）。

在均匀分布 $[0, 1]$ （uniform distribution）中：
$\psi_i(v_i)=v_i-\frac{1-F_i(v_i)}{f_i(v_i)}=v_i-\frac{1-v_i}{1}=2v_i-1$
（ $F_i(v_i)$ 是累计分布函数， $f_i(v_i)$ 是概率密度函数，也是累计分布函数的导数）

出价者特殊保留价格 bidder-specific reserve price

出价者特殊保留价格 $r_i^*$ 满足条件： $\psi_i(r_i^*)=0$

Myerson’s Optimal Auctions

The optimal (single-good) auction in terms of a direct mechanism:The good is sold to the agent $i=argmax_i \psi_i(\hat{v_i})$ ,as long as $v_i>=r_i^*$ .If the good is sold,the winning agent $i$ is charged the smallest valuation that he could have charged while still remaining the winner:
$inf\{v_i^*:\psi_i(v_i^*)>=0and\forall j \neq i ,\psi_i(v_i^*)>=\psi_j(\hat{v_j})\}$

解释一下上式： ${ } inf\{\}$ 是指取下界。 $v_i^*$ 是指胜者的最终支付价格。 $\psi_i(v_i^*)>=0$ 与 $v_i>=r_i^*$ 等价。 $\psi_i(v_i^*)>=\psi_j(\hat{v_j})$ 是指该价格可以让 $i$ 的虚拟估值大于所有其他人声明估值对应的虚拟估值，也就是保持胜者身份。

Myerson’s Corollary

In a symmetric setting,the optimal (single-good) auction is a second price auction with a reserve price of $r^*$ that solves $r^*-\frac{1-F(r^*)}{f(r^*)}=0$ .