北大杨耀东：AI与博弈决策，这场科研battle才刚刚开始

本文链接：https://blog.csdn.net/hanseywho/article/details/125222924

原来他们是这样走过来的！

【AI红人荟】——这里是TechBeat人工智能社区为优秀的AI工作者开设的人物专访栏目。从膜拜“红人”到成为“红人”，TechBeat与你一起，在AI进阶之路上，升级打怪、完美通关~

本篇人物，是来自北京大学人工智能研究院的助理教授杨耀东。他把做学术比喻成是竹子成长的过程——前几年生长得特别慢，一旦发芽之后，势不可挡。以下为采访全文，欢迎阅读~
TechBeatTechBeat是荟聚全球华人AI精英的成长社区，每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。https://datayi.cn/w/GR4vQ82o

电影《芬奇》里，主人公芬奇去世之后，由他打造、训练的机器人杰夫陷入沉思：没有了芬奇，我该做点什么？我要去哪里？相信很多了解这部电影的朋友，看到这里心都揪了一下：这个AI机器人到底会做出什么样的选择呢？

而最后，杰夫决定带着芬奇的想法、精神和狗狗，继续在人类社会生存下去。它的“思考”“通情”的能力，让杨耀东印象深刻。

电影《芬奇》截图

AI能否延续人的情感？像人类一样思考与决策？现在看来似乎还要画个问号。但在杨耀东心里，这件事，很有挑战，又魅力十足。

探索：

从最简单的机器模型到多智能体强化博弈

十几年前，杨耀东第一次接触到“图片的边缘分割”，这是他对机器学习的初印象，也是他对机器学习的“一见钟情”。“当时还没如今这么‘高级’的机器学习技术，但我已经觉得很厉害了。”

在此后的十几年间，缘起于初识计算机的好奇心，杨耀东开始了他的探索之路。

杨耀东在中国科学技术大学完成了本科学业，在帝国理工大学（IC）、伦敦大学学院（UCL）取得了硕博学位，并在美国国际集团（AIG）、华为伦敦研究所从事研究工作；最终走进校园成为一名高校教师，从伦敦国王大学（KCL）到北京大学任教。

伦敦国王大学大门

而随着研究的不断深入，杨耀东认知到强化学习所描述的决策过程是一个非常通用的框架，与AI如何做决策紧密相关。“如何让AI像人一样做决策，是一个非常有挑战性的事情，也是非常有魅力的。”

如今，多智能体强化博弈是杨耀东的主要研究方向之一。在他看来，博弈论与AI实现了“互相成就”。传统的博弈论主要处理小规模的博弈问题，关注的是解概念的理论属性、解的存在性以及解的唯一性，或者是不同类型博弈的解概念的特性。AI领域的博弈论则更关注的是多个学习主体在复杂环境中如何做出最优决策的问题，但二者又是密不可分的。

杨耀东不仅看到了博弈论对AI的赋能，他认为AI也在给博弈论带来一些新的元素，“比如最近很流行的一个说法叫”gamification”, 例如大家熟悉的对抗生成网络（Gan）就是主动构造双人零和博弈的一个例子，用博弈思维设计学习算法的思路。去年deepmind也有个有意思的工作是说特征值分解其实也是一个博弈问题。”

目前，杨耀东的科研领域包括强化学习、博弈论和多智能体强化学习，相关的研究成果在国际会议和期刊上发表50余篇学术论文，并多次斩获重要论文奖项。杨耀东也曾在TechBeat人工智能社区分享《一个通用零和博弈的求解框架》主题Talk。

杨耀东Talk分享

👉《一个通用零和博弈的求解框架》

👉 链接：https://www.techbeat.net/talk-info?id=501

在求解双人零和博弈的过程中，AI 可以仅从数据中就自己发现多智能体学习算法，这一研究成果被广泛应用在游戏等领域。作为一位资深的零和博弈研究者，杨耀东笑称即使自己非常清楚游戏机制、博弈的原理，但玩游戏时也难免经常会“上头”，打出许多非理性的操作。

人类的非理性想法与行为，也正是当前AI很难真正地像人类一样思考决策的难点，甚至我们都不知道如何去有效刻画人类的非理性行为。

跨界：

不忘初心，做学术就像是竹子的生长

在杨耀东过去的履历中，他的几次“跨界”经历格外引人注意。杨耀东坦言，做科研是一个不断和新东西接触的过程，这也是他最终选择进高校做科研的原因。

在高中时，作为上海实验中学的学生，选择了在远在合肥的的中国科学技术大学。据他分享，选择的原因是当时听说任正非老先生给出了很高的评价：“中科大是为数不多的能放下一张安静课桌的学校”。

因为大三时，听到老师对机器学习在癌症靶点预测中的应用分享，杨耀东对生物产生了强烈兴趣。这也直接促使他的本科毕业设计与研究生阶段的研究方向跨界到生物领域。而这些经历，又需要他接触生物学，尤其是种群动力学、多智能体系统的知识，也进而清晰了博士阶段的研究方向。

“在帝国理工学习生物统计、生物信息，会学习宏观生物学。在这个课程中，学到了很多描述种群动力学的常微分方程，当时觉得十分有趣。例如，竟然有规律可以用来描述动物种群的迁徙与变化。而这就与多智能体系统天然结合起来了，也就让我有机会能够师从UCL的汪军老师，开始做强化学习，也造就了我博士阶段的第一篇文章——用强化学习技术去刻画自然中的种群动力学现象。”

UCL汪军老师（左下方起第三位）与同学们

在工业界的实践，杨耀东也有着“跨界”的经历。他曾在美国国际集团（AIG）任科学部高级研发经理，带领团队开发人工智能在金融保险领域的相关应用。随后又跟随导师加入华为伦敦诺亚方舟实验室，接触决策智能领域，并做出了系列有影响力的研究工作。

于AIG时推动了作为金融领域内第一个赞助NeurIPS会议的公司

不停地跨界与尝试，让杨耀东一直在摸索自己长期的方向。直到看到“顶级AI大咖”、加州大学洛杉矶分校（UCLA）朱松纯教授回国任教，并向他发出招募邀请，杨耀东终于明确了内心的目标。

在朱老师与他描绘了即将在中国展开的通用人工智能研究的宏伟蓝图之后，他随即辞去了在英国的教职工作，进入了北京大学任教。

说到动机，他表示，其实也没有想太多，在英国待了快10年，是时候回国来推进自己的科研工作了。

如今，他是北京大学人工智能研究院助理教授。作为老师，他也希望自己的学生是对AI本身感兴趣的，并且乐于运用AI技术去做一些有挑战的事，而非人云亦云，被同辈压力压垮，以纯功利主义去写论文，忘记初心。

“其实无论是在业界还是学界，要做那些真正能让你每天睁开眼就非常兴奋、非常期待做的事。当你明确了这件事之后，可以再去想，为了达成这个目的，需要哪些能力、学习哪些技能，而不是一味地跟风去做其他人已经在做的事情，去跟风结果。”

杨耀东把做学术比喻成是竹子成长的过程——前几年生长得特别慢，一旦发芽之后，一年能长出三四米。也就是说，与其因为没有想清楚盲目选择、不得不面对巨大的沉没成本，不如前期多花一些时间去思考到底要成为怎样的人，尤其是未来五到六年，是否愿意花大量的精力和时间做一件事，并且甘愿花时间做大量积累。

“人生要做On-going的选择，花多点时间了解自己，选择对的大方向是很值得的。可惜的是，我和许多研究生聊天，他们其实憎恶自己目前的研究方向，知道它并没有任何意义。”

杨耀东分享道，有一位UCL期间的学生，正是他“竹子理论”的最佳验证。

“他是波兰人，自小生活在与世隔绝的山林里，直到高中时一鸣惊人，拿下波兰数学奥赛金牌，被英国政府邀请来读书。他极其自律，内心充满了对于学术最高峰攀登的向往。但即使如此严于律己又有天赋的学生，在科研的前两年仍然没有任何产出。但到了第三、第四年，他的学术功力就爆发了。博士入学前，他已经拿下7篇顶会论文，目前在伯克利大学师从顶尖学者Pieter Abbeel继续深造，未来可期。”

为了帮助学生更好地确定自己的方向与兴趣，或是在自己感兴趣的领域深入学习，杨耀东还鼓励学生们确立自己的学术偶像，例如他自己很喜欢的一位科研人员是David Balduzzi。

在进行充分的自主思考后，可以主动与“大佬”建立联系。“越是名气越大的大佬，通常来说他们都是非常和善的，大可不必退而远之，逻辑其实很简单，如果你的想法有价值，大佬们也会觉得自己的‘衣钵’有人‘继承’，会十分乐于与你进行探讨。”这点他的博士导师汪军对他影响很深。

杨耀东与Michael Jordan（上）、Rich Sutton（下）

信心：

AI不会迎来下一个寒冬，数据驱动的学习范式势不可挡

杨耀东在AI领域耕耘多年，非常热衷于优质的技术分享。目前，他正积极参与博士导师汪军教授牵头的RLChina 强化学习社区项目的建设，以及强化学习知识在更多本科学生中的普及。

“强化学习这个知识体系对于国内的很多学生而言，相较于神经网络或监督学习还是非常薄弱的。我们希望能够借助一些资源平台，方便学生们更好地接触基础知识，降低技术门槛。”杨耀东希望通过这一类的分享，能激发更多新人像他一样，对强化学习等技术产生兴趣、顺利“入坑”。在他看来，强化学习的发展，势不可挡。

从今年1月正式任职至今仅仅五个月，杨耀东已经组建了一支十多人人的学生团队，并且还在持续招生。身处北大，杨耀东自然也对学生们提出了更高的要求——“以大家的聪明才智，发论文、继续深造都并不难，难的是这个论文的研究内容是否是你真正想要持续探索的方向，并且论文的结果是否给领域内人士带来了新的思考与洞见，被人记住。”

他更希望招收一些有很强独立思考、批判能力的学生，也希望学生们能够真正热爱AI事业，未来能够主动扛起中国AI技术的领军大旗。

他认为在当前几大科技前沿问题中，我国在人工智能的科研道路上走得很快。但如果想要更有所突破，就需要培养出大量能做出一流成果的研究人才。

在杨耀东看来，尽管让AI能像人一样做出决策还有很长的路要走，但AI已经全面渗透进了人们的生活，且人们平日中创造出的数据每天都以爆炸性的数量在增长，因此基于数据驱动的人工智能技术不会进入到下一个寒冬。

“因为大数据和算力，都是单向递增的，如同时间一般不可逆。也许有快慢，但绝不会停止。”

人类文明会越来越多地与AI的发展交织在一起，就像电影《芬奇》的结尾，无论世界如何，人类都会找到继续生存下去、传递情感的方法。希望越来越多的AI青年能在这波不可逆的进程中，发现乐趣，贡献智识！

嘉宾介绍

杨耀东

科研领域包括强化学习、博弈论和多智能体强化学习，相关的研究成果发表论文及专著专利50余篇。他的研究工作于2020年获国际机器人学习会议CoRL最佳系统论文奖，2021年获国际多智能体系统会议AAMAS最具前瞻性论文奖。在加入北京大学以前，他曾任伦敦国王大学助理教授，华为英国研究所主任研究员，美国国际集团科学部高级经理。杨耀东本科毕业于于中国科学技术大学，硕士毕业于英国帝国理工大学，博士毕业于英国伦敦大学。

个人主页：www.yangyaodong.com

-The End-

「AI红人荟」系列回顾：

[19] 清华交叉信息研究院的助理教授弋力

如果你想和他们一样，亲自来到TechBeat分享，或者想推荐身边闪闪发光但是尚未入驻社区的AI工作者——欢迎填写下方表单自荐/推荐，说不定下一个TechBeat红人荟专访，主角就是你！

自荐 / 推荐

单人Talk | 团队专场 | 录播or直播 | 闭门交流

多种方式任你选择！

推荐讲者成功也有奖励哦~

关于将门创投

▼

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门-TechBeat技术社区（TechBeat）以及将门创投基金。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com