从空城计到阿尔法狗,博弈论如何渗透我们的生活?

640?wx_fmt=jpeg

来源:返朴

2016年,有那么一只“狗”大闹天宫,这在整个人类社会引起了轩然大波。它就是阿尔法狗(AlphaGo),是谷歌(Google)旗下公司DeepMind 在人工智能与博弈论交叉研究上的一个杰作。这只狗不仅在当年以4:1击败了围棋世界顶级选手李世石,次年又让位列世界第一的柯杰泪洒棋盘。围棋是一个最具挑战性的智慧游戏,而人工智能博弈在围棋上战胜了人类顶级棋手,无疑标志着一个崭新时代的到来。现在就让我们一起了解一下人工智能博弈背后的科学:博弈论(Game theory)。

说到博弈论,我们不禁会联想到那些充满权谋智慧的历史故事。比如战国时期的田忌赛马、孙膑献计,都是以己方相对优势的组合策略去战胜绝对优势的对方。这是博弈理论中最佳对策(best reply)的一个范例。在三国演义中,诸葛亮唱的那出吓退司马懿大军的空城计,更是在不对称信息环境下实践行为博弈的传奇。

640?wx_fmt=jpeg
博弈论领域的科学巨人和他们的学说

现代博弈论的诞生是以四十年代数学大师冯·诺依曼(John von Neumann)和经济学者摩根斯坦(Oskar Morgenstern)的巨著《博弈理论与经济行为》的出版为标志的。 冯·诺依曼可谓是一位文艺复兴式的科学“综”师。 他不光是二十世纪最伟大的数学家,还是博弈论和计算机之父。 他建立了量子力学的公理化体系。 博弈论学科的建立也是一个历史的必然。 第二次世界大战等国际政治对抗不仅催生了原子弹,也直接推动了计算机、博弈论、密码学等新兴学科的发展。 博弈论这门智慧游戏的科学,从它诞生的一天开始,就玩得有些大。 它的学术领域一直十分活跃,群星闪耀,不乏神奇。 已先后有十几位科学家因为他们在博弈论及其应用领域上的卓越成就,而拿到了诺贝尔经济学奖。

640?wx_fmt=jpeg

John von Neumann。 1944年,冯·诺依曼与摩根斯坦合著的《博弈理论与经济行为》出版,标志着现代博弈论的诞生。

我们必须要讲到是一位数学奇才: 纳什(John Nash)。 他二十几页的博士论文给出了策略博弈中的一个基本解概念,这就是后来以他的名字来命名的纳什均衡理论(Nash equilibrium)。 在这里均衡的理念就是,在一个非合作博弈中,一旦所有玩家的行为达到了一个均衡状态,那么其中任何一个理性玩家都不会愿意单独改变他的策略。 因为任何单独的改变,都不会给他带来任何的好处。 均衡概念是博弈论以及现代经济学理论的一个最基本的思想。

纳什因为其伟大的工作,成为了第一批拿到诺贝尔经济学奖的博弈论科学家。 有一部好莱坞大片叫《美丽的大脑》(A beautiful mind,又译“美丽心灵”)就是讲他的故事。 电影现实与虚幻结合,十分好看。 My God, 博弈论还能拿奥斯卡。 九十年代我在美国石溪大学读研究生。 石溪是博弈论科学家经常汇聚的一个中心,从九零年起每年都会举办国际博弈论大会。 每逢大会,这个领域的科学家和学生云集,博弈论的大师们也会到场。 当年在会场上,不难看到纳什这个“美丽的大脑”在四处游荡。

640?wx_fmt=jpeg

“美丽的大脑”John Nash。 纳什因为“在非合作博弈理论中对均衡的开创性分析”,与John Harsanyi 和 Reinhard Selten 一起获得1994年诺贝尔经济学奖。

另一位博弈论的宗师沙普利( Lloyd Shapley )更是一位有故事的人。 合作博弈论有以他名字命名的价值理论Shapley Value,给出了可转让资源分配的一个必备准则。 他提出的随机博弈(stochastic game)问题是博弈理论领域中的顶级难题之一,引一代又一代天才科学家为其折腰。 我的导师尼曼(Abraham Neyman)就是这个领域的领航者。 他与我的另一位老师莫顿斯(Jean-Francois Mertens)在八十年代解决一个困扰这个领域二十多年的开放问题。 (忍不住要私下抱怨一下,莫顿斯的课是我所有上过的课中最虐人的,没有之一。 )

前面所提到的AlphaGo可以算是人工智能在解决随机博弈问题上的一个实践了。 沙普利与罗斯(Alvin Roth)在2012年分享了诺贝尔经济学奖,则是由于他在资源匹配理论方面的伟大工作。 他与合作者盖尔(David Gale)设计了一套算法证明了两维稳定匹配一定存在。 他们的“婚配”理论模型建议,无论男女哪方,谁先主动追求,谁最后的结果就会更有利些。 博弈论的理论研究居然还能带出情感自由的绚丽火花来,真是令人叹为观止。

沙普利与中国也很有渊源,二战期间他曾作为美军专家驻守重庆,专门破译日军的加密电报。 而在他以后的学术生涯中也指导培养了多名中国学者,美国加州大学的秦承忠教授就是出自他的门下。 开挂的人生自然要有不一般的性格。 据说当年瑞典皇家学院打电话通知他荣获了诺贝尔经济学奖,而他的第一反应却是诘问来电话的人,他是一个数学家,为什么要拿经济学的奖。

640?wx_fmt=jpeg

Lloyd Shapley因为“关于稳定匹配与市场设计实践的理论”,与Alvin Roth 一起获得了2012 年诺贝尔经济学奖。 | 照片: U. Montan / The Nobel Foundation

我们的老师奥曼(Robert Aumann)是一个会讲故事的人,风趣幽默,无论多么艰深的理论在他口中都变成了雅俗共赏的艺术。 上他的课如同在听音乐会,使人心灵陶醉。 奥曼的风范,与他是科学和宗教的双重大师不无关系,在他那里,人类的理性与上帝是如此的接近。 人类在思考,上帝在微笑。 奥曼蓄着银白色的大胡子,那是他科学先哲的标志。

奥曼与纳什、沙普利等是现代博弈论的学术领袖,他与沙普利共同发展了合作博弈论中的价值理论。 他提出的共同知识学说(Common knowledge)是博弈论的一个哲学基础,“我知你知,你知我知你知,我知你知我知你知……” 真可谓道可道非常道,玄之再玄。 有后人评说,司马懿之所以没敢入诸葛亮的空城,是因为他掉进了与孔明的共识怪圈,就没能出来。 (你信吗? 反正我信了。 )

奥曼在重复博弈(repeated game)领域作出了奠基性的工作。 我们都知道,在囚徒困境博弈中,合作并不是纳什均衡。 但基于奥曼的理论,只要重复博弈的次数足够大,囚徒的合作也可以是均衡点。 这就是有名的佚名定理(Folk Theorem)。 我在当学生时着迷于奥曼的相关平衡理论(Correlated equilibrium), 那些如太阳黑子般的世外影像,却可以引导人们产生出更丰富多彩的关联的经济行为,如商业波动等。 相关均衡不仅是纳什均衡概念的理论发展,而且其概念的简单性又让它避免了纳什均衡计算上的复杂性,真是美妙。

由于他在博弈论的卓越建树,奥曼在2005年获得了诺贝尔经济学奖。 他领导编著了博弈论百科全书,并建立了以色列决策科学与理性中心和美国石溪博弈论中心等学术机构,缔造了现代博弈论学派建设的平台。

640?wx_fmt=jpeg

Robert Aumann 因为“通过博弈论分析增强了我们对于冲突与合作的理解”,与Thomas Schelling 一起获得了2005年 诺贝尔经济学奖。 | 照片: D. Porges / The Nobel Foundation

640?wx_fmt=png
博弈论的学科结构:数学与经济学的交汇

简单来说,博弈论是一门研究智慧个体相互作用与决策的科学,是数学、经济学和人工智能等学科交叉的科学。 博弈论作为数学的一个分支领域,可以把它与运筹学来类比。 运筹学有两个基本任务: 优化和分配。 我们在中学都学过求极值的问题。 简单地说,博弈论就是多元的优化和分配的推广,是研究在多元相互作用的系统中个体或群体决策的科学。 然而与运筹学不尽相同的是,博弈论也关顾博弈参与者的理性、智慧、行为,以及信息环境。 也有与行为科学相交叉的进化博弈论分支。 博弈论分为非合作博弈(策略博弈)和合作博弈两大领域。 让我们通过介绍博弈论在经济学上的发展,来了解它的基本学科框架。

当代博弈论一问世就与经济学联系在一起,冯·诺依曼和莫根斯坦那本开山巨著就以这个题目来命名。 如果拿经济学与物理学相比较的话,那博弈论就是经济学理论中的“量子力学”。 博弈论和一般均衡理论(general equilibrium)是当今经济学理论的基本语言和范式。 从微观的视角来看,在我们的经济体系中存在不同的经济个体,它们不仅具有自我行为,同时也在交互作用着。 无论是个人,还是社区; 无论是公司企业,还是政府部门,我们都可以把它们的行为简化成一个模型:

为了个体自己的目的,做出自己的行为决策。

而这些经济个体的最终利益不仅与自身的行为有关,而且也取决于其他个体的行为。 例如华为在手机市场上的营利不仅来自于公司自身的研发、生产和销售上的作为,还要看苹果、三星和国内对手的动作。 如果不研究对手,不观大局,我们所谓的“勤劳致富”就形同于盲人摸象。 竞争就是在体系中与其他个体交互作用中为达到最大利益的最优行为。 研究经济个体的竞争行为是微观经济学的范畴,也是经济学中的非合作博弈理论。 非合作博弈最基本的解决方案,就是上面介绍的纳什均衡。

金融学中有一难题,是套利的极限。 套利是利用资本市场中资产价格错配的机会,采取金融交易手段来套取营利的活动。 如果有一天,你发现周边有两个农贸市场都在卖同样一种苹果,但价格却不尽相同。 你可向朋友借些钱,买了便宜的苹果去另一市场高价出售,还了朋友的钱后,留在兜中的钱就是你的套利了。 (拜托,不要再向我推销了。 我这里的苹果已经吃不消了。 )

市场有效性假说认为,市场上几乎不会存在这种套利机会,因为一旦有套利机会,无数投机者就会蜂拥而至,套利机会也就会随之而消失。 但现实并非如此,市场上套利机会还是随处可见。 施莱佛(Andrei  Shleifer)和威斯尼(Robert Vishny)应用博弈理论模型解释了这个套利极限的问题。 他们认为,专业基金管理人受制于投资人对业绩表现的要求,而不能无条件地在任何市场条件下完成套利操作。

除了竞争,在经济社会中人们也会寻求合作。

  • 一个社会收取了各类税项,这些财富资源如何重新分配呢?
  • 一个城市建设了一个机场,如何来让航空公司去分摊机场的建设和营运成本?

更一般的,什么样的合作形式最有效? 社会资源如何分配最合理? 这些就是合作博弈论研究的核心问题。

沙普利和奥曼的价值理论为社会资源的分配提供了一个必备的基础准则: 一个经济个体可以参与社会中各类不同的团体(coalitional game),而这个个体最后可以获得的资源应该取决于它对所有社团边际贡献(Marginal contributions)的统计平均值。 哇,分配决定于贡献,老沙他们挺社会主义的。 而沙普利又与盖尔为互补资源配置建立了稳定匹配的理论,那么浪漫的东西,留给你们自己去探究吧。

人类分配资源和决定组织领导的常用手段是选举表决,我们叫它民主。 选举表决的民主方式真是完美的吗? 法国启蒙运动的领袖孔多塞(Condorcet)指出,当有三个备选对象时,民主方式可能会失效。 选举表决也许不能决定出大家公认的领袖。 这就是著名的孔多赛悖论。 他的思想后来被发展成阿罗不可能原理(Arrow impossible theorem),它是社会选择(Social choice)领域的基石。

我们做金融的最经常接触到的就是金融资产和金融市场。 “市场定价”(Mark to market)也常我们被用来作为一个行业信条。 那什么样的市场更有效? 更能准确地反映资产的价值? 这就是博弈论中机制设计(Mechanism design)研究的问题。 市场中有公开拍卖(Open auction)和封闭拍卖(Sealed auction)。

公开拍卖的方式有多种。 荷兰式拍卖是源自于荷兰鲜花市场由高到低的叫价,买者可一口承接。 我们在艺术品拍卖会看到的是所谓英式拍卖,竞拍者由低向高地竞相出价,拍品最后由最高出价者购得。

香港政府也常用封闭拍卖方式出让土地。 在封闭拍卖中,让出价最高者购得拍品是自然了,但让他付什么样的价钱,却是学问了。 直觉上似乎是,赢家出的最高价,就应该支付最高价吧。 实则非也。 我们要让最高出价的赢家以第二高出价的价格来购买拍品,这叫第二价拍卖(Second price auction)。 你能理解为什么在封闭拍卖中第二价拍卖最有效吗? 竞拍者的出价会更会接近他自己对拍品的真实估值,这样的市场设计能让买家说实话。

640?wx_fmt=jpeg
博弈论与人工智能:一枚硬币的两面

冯诺依曼与人工智能之父图灵的交集可追溯到他们在美国普林斯顿大学的学术生涯,那时,他们一个是大牌教授,一个是天才学子。 他们两位又同是计算机科学的奠基者。 博弈论与人工智能如同是一枚硬币的正反两面。 一个要研究智慧个体的相互作用与决策,一个是要使人类智能机器化。 当我们想让计算机和机器去像人类一样学习、思考和行为,实际上就是在让机器对其自身、对手和环境进行认知和智慧博弈。 人工智能也就是要把博弈论机器化。

如果要把人工智能改称为“人工博弈论”(Artificial game theory),肯定会有人反对。 “Come on, 作博弈论的一边玩游戏去。 我们还在忙着看图识字呢! ” 一个博弈论和机器学习交叉结合的范例是强化学习(Reinforcement learning)。 让我们用最前面所提到的那只AlphaGo 来演绎强化学习的概念吧。

作为人工智能的主体,AlphaGo 与人类棋手进行围棋对弈,它的目标就是通过最佳策略来取得胜利。 显然,它的最佳策略不仅要依照围棋的规则,还要针对对手的行为和策略。 在强化学习中,AlphaGo 首先要建立一个由每个阶段的奖励信号(reward signal)与评价函数(value function)所构成的目标评价体系, 通过评估局面的胜率来指导决策。 第二部分是建立它的策略函数(Policy function),能够根据对手的行为和棋局的分析产生出合理的对策。

在博弈中随着棋局的变化,AlphaGo从它的策略函数中产生使目标评估胜率最大的策略。 AlphaGo是通过学习其自我生成的大量盘局,来形成它的目标评价体系和策略函数的。 这就是关于那只 AlphaGo 强化学习的简约版故事。 [其技术包括深度神经网络(Deep neural network)和蒙特卡罗树搜索(Monte Carlo tree search)等技术,已超出本文的内容。 ] 强化学习在经济和金融方面的应用前景是显而易见的。

尽管我们不好把人工智能完全等同于人工博弈论,但搞计算机的人爱玩游戏却是不争的事实。 人工智能科学有一个巨大的游戏场,这就是算法博弈论(algorithmic game theory)。 图灵奖科学家姚其智和米卡利(Silvio Micali)是这一领域的领军人物。

算法博弈首先关注博弈理论中的计算问题,有什么样的算法可求解? 算法是否可有效地在计算机上实现出来? 邓小铁等华人学者在纳什均衡计算复杂性的研究上做出了卓越的贡献。 最近德州扑克博弈专家萨德豪姆(Tuomas Sandholm)和他的合作者布郎(Noam Brown)在多人扑克的智能博弈上又取得了突破性的进展。

算法博弈论的另一条发展方向来源于计算机领域的分布式计算。 它的一个基本问题是如何协调非中心控制的分布式的计算资源。 在一个分布式系统中,如果有些结点上出现了问题,这个系统还可以正常工作吗? 这就是著名的拜占庭将军问题(Byzantine failures)。 当前非常活跃的区块链技术也是算法博弈与密码学等领域的交汇。 作为密码学与算法博弈大师的米卡利,最近推出了他的区块链(blockchain)项目Algorand,备受业界的关注。

算法博弈蓬勃发展的一个主要动力还来自于它在互联网经济生活中的广泛应用。 从谷歌、百度网页上的广告拍卖,到滴滴出行、Airbnb共享平台的机制设计,从人体器官移植的配匹,到今日头条等资讯的个性化推荐,算法博弈都是支撑它们的核心基础技术。 今天,博弈论正以崭新的方式走进我们生活的方方面面。

640?wx_fmt=jpeg
结篇寄语

尽管博弈论中的一些问题和它的朴素思想或许可以追源到远古,但当今博弈论学科的发展却日新月异、风华正茂。 博弈论学科横跨数学、经济学和人工智能等诸多领域,是一门极富挑战性而又美轮美奂的交叉科学。 当年著名物理学家朗道曾感叹自己生不逢时,当时包括他在内的一流科学家,在物理学领域,也只能研究二三流的问题。 当今博弈论领域,不仅有一堆一流的问题有待研究,而且还有好些重要问题尚未被发现。 这也是为什么,博弈论领域硕果累累、群星璀璨。 近年来它也成为诺贝尔经济学奖得主的摇篮。 在博弈论的学术领域,我们华人科学家也是人才济济,成就斐然。 比如周林教授因其在博弈理论研究上的卓越工作,于2009年入选世界计量经济学学会会士(Fellow) (这里并不试图对华人学者在博弈理论领域的工作进行全面的介绍)。

博弈论也是一门实用性学科,它的基本原则和策略方法早已成为现代政治生活、经济活动、金融投资、商业决策和组织管理等领域必备的行为规范和实践手段。 诺贝尔经济学奖得主罗斯曾倡导,经济学者也是工程师。 他本人就在身体力行,是博弈论在社会资源匹配应用实践上的先行者。

今天,随着博弈论与人工智能的交汇,以及算法博弈的长足发展,博弈论正从科学的殿堂大步走出,汇入工程技术的广阔海洋,在各个方面服务于我们的生活。

年轻的朋友们,让我们一起来了解和学习这门研究和实践智慧游戏的学科——博弈论。

阅读建议

国际上博弈论的专业教材和杂志文献十分丰富,这里推荐几本国外文献的中译本来作为我们入门学习的教程。
  • 学科科普
《纳什均衡与博弈论》汤姆•齐格弗里德 (作者), 洪雷 (译者), 陈玮 (译者), 彭工 (译者)
  • 学科应用
《策略思维——商界、政界及日常生活中的策略竞争(大师细说博弈论)》阿维纳什·K·迪克西特 (作者), 巴里·J·奈尔伯夫 (作者);
《妙趣横生博弈论: 事业与人生的成功之道》迪克西特(Dixit A.K.) (作者), 奈尔伯夫(Nalebuff B.J.) (作者)
  • 学科专业
《博弈论基础 (当代经济学教科书译丛) 》罗伯特·吉本斯 (作者), 高峰 译 (译者), 魏玉根 校 (译者)

《崛起的超级智能》一书主要阐述当今天人类为人工智能的春天到来而兴奋,为人工智能是否超越人类而恐慌的时候,一个更为庞大、远超人类预期的智能形态正在崛起,种种迹象表明50年来,互联网正在从网状结构进化成为类脑模型,数十亿人类智慧与数百亿机器智能通过互联网大脑结构,正在形成自然界前所未有的超级智能形式。这个新的超级智能的崛起正在对人类的科技,产业、经济,军事,国家竞争产生重要而深远的影响。

作者:刘锋   推荐专家:张亚勤、刘慈欣、周鸿祎、王飞跃、约翰、翰兹

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值