算法博弈论(algorithmic game theory)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/u012176591/article/details/51661281

算法博弈论

1. 参考书

“the Internet is an equilibrium, we just have to identify the game.”
——Scott Shenker

自从 John von Neumann 提出博弈论和算法的基本理论,这两个方向似乎一直若即若离,博弈论总是和经济学家打得火热,而算法一直是计算机科学家的最爱。互联网的兴起为经济学家和计算机科学家的合作提供了一个绝佳的机会,博弈论和算法也终于走到了一起。

毫无疑问,本书的作者团队星光闪耀,众多名校的牛人,造就了这本《Algorithmic Game Theory》。

  • 本书第一部分介绍了博弈中的计算问题,主要是各种类型博弈的均衡求解;
  • 本书第二部分介绍了机制设计中的计算问题,或者说可计算机制设计问题。这部分内容学计算机的同学要认真读,搞懂了以后再读后面的部分就容易多了;
  • 本书第三部分介绍了均衡效率的计算问题。均衡不一定是有效率的,如大家熟知的囚徒困境例子。这部分介绍的就是均衡效率的量化。
  • 本书第四部分介绍了当前算法博弈论中的热点研究问题,如P2P系统的激励机制,搜索引擎关键字拍卖机制等。

建议经济管理方向的同学在读这本书的时候,紧紧抓住“均衡计算”的概念;而计算机方向的同学,要紧紧抓住“机制设计”的概念。

2.算法博弈论和传统的经济学(博弈论)或计算机科学的异同

长期以来来,经济学研究人员专注各种经济活动和各种相应的经济关系及其运行,以及身为一名理性人在经济活动中的行为;而计算机科学研究人员则专注于研究信息与计算以及计算机系统中如何实现与应用,二者互不干涉。这一情况在上个世纪90年代得到了改变,互联网的兴起,让原来只关注自身领域的计算机研究人员和经济学研究人员走到了一起:

对于计算机科学研究人员,他们开始考虑互联网上的非合作博弈(non-cooperative)特性以及相应的激励(incentive)问题;同样的,经济学研究人员也开始涉足新兴的互联网,研究其跟经济相关的问题。

就这样计算机科学(computer science)与博弈论(game theory)走到了一起,形成了一门新的学科:算法博弈论(algorithmic game theory).

和传统的博弈论和计算机科学相比,算法博弈论主要关注点在互联网网络,非传统拍卖等,主要不同体现在这些方面:

  • 应用领域:算法博弈论主要研究包括Internet网络和非传统拍卖,比如社交网络里的个体行为,baidu,google等用拍卖的方式出售它的关键字广告位,或者4G频段的拍卖。
  • 工程量化方法:从具体优化问题的角度对应用建模,寻求最优解、判断不可解问题以及研究可解优化的上下限问题。比如,在对问题用博弈论的框架进行建模过程中,可能会得到很多个稳定的状态(纳什均衡)。那么在在这些稳定状态中,我们会关注系统最好情况的系统状况,最坏情况下系统的状况,以及统计意义上平均的系统状况。 以经典的囚徒困境为例,很显然在均衡状态下总共的收益是-4,而当两人都选择沉默时,每个人的收益-2。很显然在均衡状态下并不最优的(inefficient),那我们该如何去量化这种inefficiency呢,这是算法博弈化研究内容之一。
  • 可计算性问题:相对一些经济方法无法在线性时间内由计算机解决(NP-C问题),算法博弈论将可计算性作为算法实施必须考虑的限制条件。我们可以从这么几个角度去理解:首先,对于参与者而言,我们比较关注参与者们能否可以在多项式时间内达到一个均衡状态。并不是所有博弈都可以到达均衡状态,当Overture第一个采用广义第一价格拍卖(generalized first price)时,广告商惊讶地发现在上面出价是件很痛苦的事情;其次,对于对于参与达到的各种均衡(如Nash均衡、子博弈Nash均衡等),我们是否可以在多项式时间内计算出它的均衡状态。纳什的论文指出:所有有限的博弈都能达到混合策略纳什均衡(Every finite game has a mixed Nash equilibrium)。但很快学者就意识到存在均衡并不意味着可以在多项式时间计算出均衡。

3.计算机经济学

算法博弈论作为计算机理论科学的一个新领域,重点关注并解决有关拍卖、网络和人类行为的根本问题,它与微观经济学和博弈论的不同表现在以下几方面:一是应用领域方面的不同,主要包括类Internet 网络和非传统拍卖;二是应用定量工程性的方法,从具体优化问题的角度对应用建模,寻求最优解、判断不可解问题以及研究可解优化的上下限问题;三是讨论可计算性问题,相对一些经济方法无法在线性时间内由计算机解决(NP-C问题),算法博弈论将可计算性作为算法实施必须考虑的限制条件。算法博弈论大略包括以下几个研究领域:

  • 一是研究各种均衡(如Nash均衡、子博弈Nash均衡等)的计算复杂性问题;
  • 二是从博弈论的观点研究计算机学科中的许多问题;
  • 三是算法机制设计领域,研究领域包括网络结构及性能方面的研究、在线拍卖和在线交易、在线广告、搜索结果页面排序及其它一些分布式应用;
  • 四是计算性社会选择问题。

作为经济学中的重要研究工具,博弈论通常被用于研究公司在市场竞争中如何采取恰当的经营策略以达到期望的目标,而博弈论被引入到计算机科学则归功于互联网及其他开放式网络的出现。在这些开放性网络应用中存在着许多不同实体间的策略性交互操作,每个实体都有理性,来自于不同的组织并具有自己的利益,每个实体都依据实际环境选择有利于自身的操作策略并实现利益的最大化,这些策略之间最终达到一种相互制约的均衡状态。在达到的各种均衡状态中,有些是系统设计者所希望看到的,有的则恰恰相反。博弈论研究这些均衡状态的特性以便于区分选择,而机制设计则通过制定实体需遵守的交互机制,促使实体在自身利益驱动下选择设计者期望的策略,实现符合设计目标的系统总体均衡态。

4.机制设计简介

相比博弈论对博弈解的求解和分析而言,提出机制设计的原因是由于机制设计者想执行一项社会决策或选择以达到某种社会性目的,但由于执行决策所需要的信息是分布式的,只有社会成员自己知道,设计者不可能获得信息或者获取成本太高。因此,机制设计提供了一个关注激励社会成员汇报自己私有信息问题的分析框架,研究如何设计一个博弈形式,或者称作机制,令社会成员参与其中,得出的博弈解恰好符合设计者所想达到的社会选择,这个问题也被称作社会选择的实施问题。这里社会选择是指整个社会群体性的选择结果,这个结果是由诸多独立博弈者通过表达各自的偏好而聚集得出的,社会选择的结果会反过来影响每个独立博弈者的收益。比方在政治选举时,每个选民表达自己的意愿偏好,选择一位候选者当选,所有选民的偏好聚集在一起共同决定了哪位候选者可以当选,候选者上任以后实施的政策会翻过来影响到选民的切身利益。

以社会选择函数来刻画社会选择的标准,如果对于每一种可能的社会状态,博弈形式(或机制)得到均衡解的结果与社会选择函数对于同一社会状态的计算结果相同,我们就说该博弈形式(或机制)以某均衡解的方式实施了该社会选择函数。显然,社会选择函数是否能被某机制实施与解的选择(如占优均衡还是Nash均衡)密切相关。如果社会选择的结果是个社会结果集合,则以多值映射社会选择规则进行表示。

机制包括直观显示机制(或称作直观机制、显示机制、直接机制)和非直观显示机制(或称作非直观机制、一般机制、间接机制)。在直观机制中,设计者直接询问参与者的私有状态信息(或类型信息或私有偏好),非直观机制中设计者只能观测到参与者的行为(或消息),该行为由以内在状态为参数的显示策略函数决定。如果所有参与者的行为共同构成一个Nash均衡,则称其对应的显示策略共同构成一个事后纳什均衡(ex-post Nash equilibrium)。

机制设计中的一个重要问题就是如何设置恰当的机制,使每个博弈者显示自己的真实私有偏好,因为有的博弈者为了获得自身利益的最大化而隐瞒自身真实偏好,或者通过策略性的显示偏好而操纵社会选择的结果。一般的,需要通过某种激励策略实现这个目的,如果一种机制能够获得博弈者的真实信息并能够防止博弈者的策略性操纵,这种机制被称作真实机制,也被叫做激励相容(incentiv重点内容e compatible)机制或防护策略(strategy-proof)机制。需要注意的是,博弈者最终收益的组成,若采用准线性的收益形式,最终收益等于初始收益与获得报酬的两者之和。通常设计的显示机制包括社会结果选择函数与实体支付函数两部分,机制的设计就是通过适当的构造这两个函数,使机制满足一些所需要的特性,如实体只有在报告真实信息时才能获得最大最终收益的真实机制特性。真实机制可以被用作获得用户的真实意图,在一些计算机应用有此需要时,就可以应用机制设计的方式予以实现。

激励相容的直观机制具有良好的数学性质,可由一组表示激励限定的不等式表示并进行分析,但在实际应用中似乎很难有直接应用直观机制的情况,往往都是通过观察参与者显示的行为,分析得出一组显示策略构成一个均衡解。显示原理较好的解决了这个问题,该原理声明任何具有均衡解的非直观机制都存在一个对等的直观机制,且该直观机制激励相容。该原理的证明较为简单,以占优均衡为例,如果对于一个非直观机制存在一组显示策略构成一个占优均衡,则可以如下方式构建一个激励相容的直观机制:直观机制直接询问私有状态信息,以获得的状态信息为参数,通过作为均衡解的显示策略算出对应的行为,机制再以该组行为为输入参数,利用原有的非直观机制模拟参与者实现社会选择函数。依据占优均衡解的定义,参与者自己在非直观机制中的占优策略是以其真实私有状态信息为参数计算出的行为,一定使汇报者自己获得最大受益。因此如果参与者在直接机制中汇报虚假状态信息,则机制算出的行为一定不能使自身利益最大化。显示原理还有其它相似的贝叶斯版本。基于显示原理,我们可以重点关注并研究激励相容的直观机制。

references

展开阅读全文

没有更多推荐了,返回首页