DeepMind最新研究:AI击败了人类,设计了更好的经济机制

7c2902ca311099af1622309d222cba64.gif

“人类面临的许多问题并不仅仅是技术问题,还需要我们为了更大的利益在社会和经济中进行协调。”“要想人工智能技术能够提供帮助,它需要直接学习人类的价值观。”

——DeepMind 研究科学家 Raphael Koster

人工智能(AI),能否推动人类社会进入真正的智能化时代?

尽管经过 60 多年的发展,人工智能行业已经取得了突破性的进展,且被广泛应用在经济社会的方方面面,但构建与人类价值观一致的人工智能系统,仍然是一个尚未解决的问题。

如今,一项来自英国人工智能公司 DeepMind 的最新研究,或许能为人工智能行业从业者解决这一问题提供一个全新的思路。

据介绍,DeepMind 的人工智能系统在一个 4 人在线经济游戏中,通过向 4000 多人学习以及在计算机模拟中学习,不仅学会了制定如何重新分配公共资金的政策,而且表现十分优异,战胜了其他人类玩家。

该游戏涉及玩家决定是保留一笔货币捐赠,还是与其他人分享,以实现集体利益。

相关研究论文以“Human-centred mechanism design with Democratic AI”为题,于 7 月 5 日在线发表在权威科学期刊 Nature Human Behaviour 上。

6fccc4b6b8411b09561c87b1e5a0cb9c.png(来源:Nature Human Behaviour

英国约克大学助理教授安妮特·齐默尔曼(Annette Zimmermann)警告说,“不要把民主狭隘地等同为寻找最受欢迎政策的“偏好满足”(preference satisfaction)系统。”

她还表示,民主不仅仅是让你最喜欢的政策得到最好的执行——它是创造一个过程,公民可以在这个过程中平等地相互接触和商议(事情)。

c3233f9c99431130be207cdd638e0a0e.png

由 AI 设计经济机制

人工智能研究的最终目标是构建有益于人类的技术——从帮助我们完成日常任务到解决社会面临的重大生存挑战。

如今,机器学习系统已经解决了生物医学的主要问题,并帮助人类应对环境挑战。然而,人工智能在帮助人类设计公平和繁荣社会方面的应用还有待开发。

在经济学和博弈论中,被称为机制设计的领域研究如何最优地控制财富、信息或权力在受到激励的行为者之间的流动,以实现预期目标。

在此工作中,研究团队试图证明:深度强化学习(RL)代理可以用来设计一种经济机制,这种经济机制能够得到被激励人群的偏好。

在这个游戏中,玩家一开始拥有不同数量的钱,必须决定贡献多少来帮助更好地发展一个公共基金池,并最终获得一部分作为回报,且会涉及反复决定是保留一笔货币捐赠,还是与其他玩家分享,以获得潜在的集体利益。

研究团队训练了一个深度强化学习代理,来设计一个重新分配机制,即在财富平等和不平等的情况下将资金分享给玩家。

共享收益通过两种不同的再分配机制返还给玩家,一种是由该人工智能系统设计的,另一种是由人类设计的。

c8fa6474575d8733bf931852b44aacdb.png图|游戏设计(来源:Nature Human Behaviour

在由人工智能制定的政策中,系统会根据每个玩家贡献的启动资金数量重新分配公共资金,以此来减少玩家之间的财富差距。

相比于“平等主义”方法(不管每个玩家贡献多少都平均分配资金)和“自由主义”方法(根据每个玩家的贡献占公共资金的比例分配资金),该政策从人类玩家手上赢得了更多的选票。

同时,该政策也纠正了最初的财富失衡,制止了玩家的“搭便车”行为,除非玩家贡献出大约一半的启动资金,否则他们几乎不会得到任何回报。

但是,研究团队也警告道,他们的研究成果并不代表“人工智能治理”(AI government)的配方(recipe),他们也不打算为政策制定专门构建一些由人工智能驱动的工具。

49fc35b79b875db91f44b253efac8c4e.png

值得信任吗?

研究结果表明,通过在激励相容的经济游戏中设计一种人类明显更喜欢的机制,人工智能系统可以被训练来满足民主目标。

在此次工作中,研究团队使用人工智能技术来从头学习重新分配方案,这种方法减轻了人工智能研究人员——他们自己可能有偏见或不代表更广泛的人群——选择一个领域特定目标进行优化的负担。

这一研究工作也提出了几个问题,其中一些在理论上具有挑战性。例如,有人可能会问,把强调民主目标作为一种价值校准的方法是否是个好主意。该人工智能系统可能继承了其他民主方法的一种倾向,即“以牺牲少数人为代价赋予多数人权利”。考虑到人们迫切担心人工智能的部署方式可能会加剧社会中现有的偏见、歧视或不公平,这一点尤为重要。

cedfaa3cd2bb746b28f4e75a436deb93.png(来源:Pixabay)

另一个悬而未决的问题是,人们是否会信任人工智能系统设计的机制。如果事先知道裁判的身份,玩家可能会更喜欢人类裁判而不是人工智能代理裁判。然而,当人们认为任务对人类来说过于复杂时,他们页往往会选择信任人工智能系统。

此外,如果是口头向玩家解释这些机制,而不是通过经验学习,他们的反应是否会有所不同。大量文献表明,当机制是“根据描述”而不是“根据经验”时,人们的行为有时会有所不同,特别是对于冒险的选择。然而,人工智能设计的机制可能并不总是可以用语言表达的,在这种情况下观察到的行为似乎可能完全取决于研究团队所采用的描述的选择。

在论文的最后,研究团队还强调,这一研究结果并表示他们支持某种形式的“人工智能治理”,即自主代理在没有人工干预的情况下做出政策决定。

他们希望,该方法的进一步开发将提供有助于以真正符合人类的方式解决现实世界问题的工具。

参考链接:
https://www.nature.com/articles/s41562-022-01383-x
https://www.deepmind.com/publications/human-centred-mechanism-design-with-democratic-ai
https://www.newscientist.com/article/2327107-deepminds-ai-develops-popular-policy-for-distributing-public-money/

RECOMMEND

推荐阅读

58bfdccfa87cc2adf0140414bdd489b8.png

01

《因果论:模型、推理和推断(原书第2版)》

ee047ebe4be48b27df2f4795b441e846.jpeg

作者:[美] 朱迪亚·珀尔(Judea Pearl)

译者:刘礼 杨矫云 廖军 李廉

图灵奖获得者、贝叶斯网络奠基人、美国国家科学院院士、结构因果图的创始人朱迪亚·珀尔因果论代表作

推荐阅读

第二次因果革命即将到来?因果推断会是下一个AI热潮吗?本书全面阐述了现代因果关系分析,展示了因果关系如何从一个模糊的概念发展成为一套数学理论,并广泛用于统计学、人工智能、经济学、哲学、认知科学、卫生科学和社会学等领域。本书第1版曾获2001年拉卡托斯奖,作者朱迪亚·珀尔是2011年图灵奖得主。本书的出版将有利于中国的广大学者、学生和各领域研究人员了解和掌握因果模型、推理和推断相关的内容,在相关领域做出优异的成果。

0938c7ffcb5e5e2396cafd8c74a391a9.png

02

《代数大脑:揭秘智能背后的逻辑》

beb8f533a9f462c3dd213a8cc0107f66.jpeg

作者:[美]加里·F. 马库斯(Gary F. Marcus)

译者:刘伟刘欣于栖洋等

DeepMind人手一本!

屡次对战深度学习三巨头,揭秘大脑黑盒到底是神经网络机器,还是加工符号的机器

推荐阅读

本书英文版出版至今已近20年,但关于大脑究竟如何工作的问题至今仍无答案,而符号主义(认为大脑是类似于计算机的加工符号的机器)与联结主义(认为大脑是并行运转的大型神经网络)之间的争论也从未停息。本书分析了联结主义模型和符号加工模型在计算方面的优势和劣势,关注不同联结主义模型之间的差异以及特定模型与符号加工的特定假设之间的关系,并围绕多层感知器展开讨论。书中的观点在今天依然频繁成为学术讨论的焦点,并为认知科学、人工智能、深度学习等领域的未来研究指明了可能的方向。

81f639a0d6bff06679f15a65b11033b0.gif

更多精彩回顾

资讯 |《Java核心技术》基于Java 17全面升级!

干货 |再见了Java8,Java17:我要取代你

资讯 | Java核心技术大会2022 · 重磅发布

新书 | 红蓝攻防:构建实战化网络安全防御体系

书讯 |7月书讯 | 12本新书如期而至!

每周赠书 | 【第112期】一些可以显著提高 Java 启动速度方法

上新 |八大行业的产业数字化实践,一本书讲明白

上新 | 最优化模型:线性代数模型、凸优化模型及应用

书评 | 运营其实很重要

5d73a849cafe2728d93c02575dc54918.gif

c3588c0125850061f210383122956e24.gif

点击阅读全文购买

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值