14万引用Sergey教授专访:好研究没有妙计,不好的研究却千篇一律丨独家

d6e4be7dd91de8ef80084e78577c56d7.png

“做研究就像买彩票,如果中奖奖金本身就低,就不要买那个彩票。”

学术狂魔、强化学习领军者,来自UC伯克利的Sergey Levine副教授在形容如何做好研究时,做出了这样一个生动的比喻。做科研是一个漫长的学术祛魅的过程。在他看来,大部分的研究都会失败。面对极低的成功率,需要研究者放平心态,承担风险。

在过去的很多年间,Sergey一直保持着极高的论文发表速率。ICLR 2021 上他是论文接收第一人(共16篇论文入选),ICLR 2020同样如此(共13篇论文入选)。而他的秘诀除了疯狂的日常节奏,还有去除功利心的平稳心态。“我每天问自己的问题,不是我的研究成功了吗,而是我是不是在解决我想要解决的问题。”

保持高度自律需要极强的组织管理能力和过硬的心理素质。“你必须有追踪所有算法的组织能力,有你自己的优先级,就好比广度优先搜索算法(Breadth First Search)。研究需要创造力,但事实上,高度自律会帮助你将创造力转化为成功。”

谈及对年轻研究者的建议,Sergey教授表示,设法让自己处在一个能激发你智力的环境,一个有优秀合作伙伴的共建社区。正是这种“社区意识”让具有相似研究价值观的人汇聚在一起。

对于Sergey Levine来说,今年将是一个全新的开始。于今年3月刚刚成立的机器人创企Physical Intelligence尚处于早期阶段,甚至还没有一个完整的公司网站,但介绍页上响当当的几个名字已经说明了一切。和并肩作战多年的同事、合作伙伴们合开一家公司也许是众多科研人的梦想。对此,他表示Physical Intelligence的宏伟蓝图是创建属于机器人的大模型,目标是使机器人系统能够以任何化身的形态长期执行任何具体任务,目前正向着这个目标努力迈进。

第18期智源专访,让我们走进Sergey Levine高度自律的科研生活。以下为专访全文(为方便流畅阅读,笔者进行了不改变原意的编辑)。

智源专访栏目意在展现行业顶尖技术研究者和创业者的研究经历和故事,本次专访为总第18期。

简介

Sergey Levine,加州大学伯克利分校电气工程与计算机科学系助理教授Sergey Levine于2009年在斯坦福大学获得计算机科学学士和硕士学位,2014年在斯坦福大学获得计算机科学博士学位。他于2016年秋季加入加州大学伯克利分校电气工程和计算机科学系的教职。专注于研究让自主智能体通过学习获得复杂行为的通用算法,集中在机器学习决策和控制领域。并开发端到端深度神经网络训练策略,曾带领团队与谷歌联合研发RT-X机器人项目,被认为是强化学习领域的领军人物之一。Sergey Levine谷歌学术引用量超过13万,同时在顶会和期刊上发表大量论文,接收量长期位居前列。例如NeurIPS 2019和2020上分别有12篇论文被接收,位列NeurIPS榜单第一。

Sergey Levine还是伯克利人气超高的”网红教授“。他开设的深度学习课程(Deep Reinforcement Learning,代号CS285)在学生中反响极为热烈,广为传播。

采访:李梦佳

整理:李梦佳、赵明华

利用离线RL实现人在回路训练:Agent与人类良好互动

正如你在演讲中所说,用大数据集训练先前的模型,是实现高性能agent的关键。但在现实场景中,许多数据集呈长尾分布。如果忽略这种情况,可能会导致agent产生安全问题。那么如何解决长尾数据的问题?

好问题,这无疑是自主系统(autonomous systems)面临的重大挑战之一。有几个方法能够解决这个问题。其中有一个方法是:在线微调阶段允许agent体验分布尾端的情况,并且进行适应。当然,如果我们真的想解决安全问题,需要做的工作还有很多。因为agent即使体验和适应过,并不意味着你不会犯错误。

离线RL中的许多研究思路实际上与分布式、鲁棒优化和鲁棒机器学习中的思路相吻合。我们有可能利用这些思路,建立一种方法,从本质上创建分布式鲁棒RL技术(distribution robust RL techniques),这是一个很热门的领域。我的学生Katie Kang在这方面进行了很多研究。在鲁棒性和离线RL技术的交叉点上,我们还有很多工作要做。

实现大规模的RLHF需要高昂的成本,这给研究机构和初创企业都带来了挑战。在强化学习过程中,我们如何实现高效的人在回路控制(human in the loop control)?如何确保agent与人类互动良好?

目前因为算法效率的问题,人在回路训练 human in the loop training是很困难的。因此,如果需要数百万次的互动,人类很快就会对此失去兴趣。我认为,离线预训练在这方面可以起到很大作用。因为如果我们可以对人与人之间互动的数据进行离线预训练,得到一些能力强大的agent,这些agent就可以通过人在回路训练human in the loop training进行更快的微调。

就像我在离线预训练过程中展示的机器人一样,它根据图像进行在线的自适应只需要25分钟。离线预训练能够大幅提高速度。我认为,研究如何利用(离线预训练)实现人在回路训练,是很有意思的事情。未来这是一个很有价值的研究方向。

281734dfd4ffe31ab19709a2b682b957.png

自主智能体的Scaling Law

大家都在讨论大模型中的Scaling Law,那么问题来了,是否存在一种自主智能体的Scaling Law?如果有的话,我们怎么去找到呢?

好问题,但遗憾的是,目前我们对这一方面的理解并不深刻。自主智能体性能的增强很可能来自于数据集和模型大小的增加。但是目前为止,我们还做不到。因为开发能够大规模强化学习的算法在很大程度上仍然是一个开放性问题。目前,我们已经取得了很多进展,有很多新的方法可以训练语言模型和扩散模型等等。但是我们还不足以真正理解scaling law。这也是该研究者们未来几年可能会涉猎的。

如果非要对自主智能体这个领域的Scaling Law做一个定义,应该是什么样的?

如果非要说的话,我认为应该是:RL算法提取更优行为的能力取决于数据集的覆盖范围。覆盖范围意味着数据是否已经包含了智能体的各种行为。如果它包含了各种各样的行为,那么研究者就更有可能在各种各样的行为中找到较好的行为。好的行为比如说智能体非常真实,非常有同理心,非常高效,从而找到最佳的组合。但是如果数据量非常少,所有行为都非常相似,那我们寻找到更好行为的空间就会变小。因为我认为,在强化学习“规模化”的概念意味着要对这种行为数据的覆盖范围进行准确的量化。

我们知道你也曾经和Waymo合作研究自动驾驶,你认为自主智能体在现实生活中最有前景的应用是什么?

应用领域方面,其实很多需要控制和决策的领域都是很适合的。以安全摄像头检测行人为例,看起来是个计算机视觉问题,实际上是个决策问题。因为一旦它发现了行人,就必须决定是要进行上报,还是采取其他行为。

几乎所有机器学习的部署基本上都是决策问题。而原则上,决策问题都可以从离线 RL 中获益。一直以来,最让我兴奋的研究方向是语言模型智能体,也就是可以在交互环境中做出决策的语言模型,包括与人交谈、使用工具等,基于此我们可以构建出功能更强大的机器人系统。

当然还有一些十分让人兴奋的应用。例如,管理库存、管理资源路线规划等的大规模运筹学系统,所有这些都可以根据历史记录数据进行优化。我想说的重点其实是,只要我们有正确的算法,基础模型和数据集,随之而来的应用是无穷无尽的,因为几乎任何机器学习的应用在某种程度上都是决策问题。

如何实现复杂智能?像人类一样面对真实的复杂世界

关于研究和个人目标,我想知道,你一开始为什么决定做机器人?你在学术界工作多年,有没有改变过你的研究方向?你通常如何选择自己想研究的方向?

就我个人而言,我最有热情的事情是,研究怎么去构建像人类一样灵活、智能的自主系统。目前来说,这还是一个长远的目标。我不能说我对这个目标有多么独道的看法,但我可以确信,如果我们要建造这样一个灵活和智能的系统,我们必须把自主系统放到与人类所处环境一样复杂的环境中。

如果我们把AI系统放到过于简单,不需要复杂智能的世界,那么我们可能就无法得到复杂智能。所以研究机器人的优点就在于,它们必须像人类一样,去面对真实世界的所有复杂性。我们不能够简化机器人所处的环境,至少要确保他们面对的世界是足够复杂以至于能够真正获取智能。于是我们的挑战就变成尽力赋予他们人类水平的智能。

这种复杂性是我对研究机器人感兴趣的原因。比如当前语言模型研究热潮也是因为规模化的发展,希望在未来在机器人领域也能看到类似(大语言模型)的进展。

7f9354abcf8dd5029d8d23c1fb8b9c5e.png

机器人技术和大语言模型都是非常热门的领域。你是怎么做到总是能够找到好的研究问题的?

我不确定我是不是总能提出好的研究问题,但我认为,有一种可以让我获得灵感的方式:思考研究问题的瓶颈是什么,意思是针对特定系统还有很大的优化空间,哪些优化是必须去做的。也就是说,要从我们目前的系统发展到一个真正灵活、智能的系统,有哪些问题是研究者必须去着手解决的。所以,如果我们选择瓶颈问题去研究,这也许是走上有影响力研究道路的一个很好的启发式方法。

比如说,聪明的人类都具有目标导向行为,在某种程度上他们是理性决策者。也就是说,让自主智能体具有目标导向行为的研究是很重要的。所有系统都有数百万种改进的方式,但我认为,要做出有意义的研究,关键是要选择上限最高的改进方式,至少有一些概率能够做出出类拔萃的研究。

研究员必备:吾日三省吾身,是否在解决正确问题的道路上

作为“学术狂魔”,你一直保持着极高的论文发表频率。有人说,我四天读完这篇论文都很困难,但是Levine教授已经又发表了一篇。你都是怎么做到的?

我一直很幸运,有一群很优秀的合作者,学生们也能出色地完成他们的任务。

对于那些正在追求成功的年轻研究人员来说,我认为最重要的事情之一,就是设法让自己处在一个非常能激发你智力的环境,一个有很好的合作伙伴的共建社区。这也因人而异,但是如果你有这种“社区意识”,可以和跟你有相似研究价值观的研究人员合作,你的合作就会更加卓有成效。我认为这点很重要,因为过去多年来我在和我的学生、同事合作的过程中受益匪浅。

56a17ee44d9faf2ca64777c434d970ac.png

Sergey Levine与Pieter Abbeel、Chelsea Finn等合作者

你培养了众多AI人才,你是怎么激励你的学生的?

我觉得,对于我的学生们来说,更多的是自我激励。甚至是他们激励我比我激励他们还多。我认为,对于研究人员来说,保持乐观是非常重要的。因为有价值的研究往往伴随着高风险,高风险意味着高失败率。为了那微小的成功率,你也必须愿意去做有风险的事。作为研究人员,如果你不愿意去承担风险,那么你做出的最优结果效果也不会很好。

你要找到能真正激励驱动你的东西,你的乐观之源,无论是出现新想法的激动,还是那种你能够实现的AI能力有多叹为观止所鼓舞,这是最重要的。当然,对于那些想要进入这个领域的年轻研究者来说,一定要去找寻那些能够激发你的源动力。而对于那些资深研究者来说,也要找到方式不断激励学生和合作者。

对于有风险的研究来说,如果一个人花费了大量的时间在一项研究上,但是却没有得到有效的结果,你怎么看这种情况?

我觉得,作为一个研究员,公平对待自己很重要。对我而言,无论在学生时代,还是当教授以后,我经常问自己最多的,不是我的研究成功了吗,而是我是不是在解决我想要解决的问题。

因为在某种程度上,研究者对于工作成功与否的把控力是有限的。大部分研究都会失败,有很多理论,很多工作,你必须去猜想,而且最终你的猜想有可能是错误的。那么就争取在很小的成功概率当中做出可以取得真正巨大成功的工作。

你所能把控的,就是去解决你认为正确的问题。如果在正确的问题持续不断付出,虽然有时会失败,最终一定会成功。因此,从你的尝试中获得满足感,比仅仅获得成功更重要。重要的是找到一个能允许你放心大胆尝试的场所,而并不是每个场所都能给你这样的安全感。因为长远来看,这样安全的环境通常能帮助你做出好的研究。

鉴于你发表论文的频率如此之高,我们会很好奇,你的日程安排是什么样的,繁忙程度如何?

确实很疯狂。我认为,对于研究员来说,良好的组织能力非常重要。你成功的可能性往往取决于你产生大量想法的能力。无论你正在从事一个项目还是多个项目,都需要你以正确的方式对这些想法进行优先级排序,并大致按照优先级顺序去尝试。

你必须有追踪所有算法的组织能力,有你自己的优先级,就好比广度优先搜索算法(Breadth First Search),要有一个优先次序,这都需要你去组织。因此,良好的组织能力、记录能力以及一定程度的心理上的自律性,都很重要。听起来可能有点讽刺,因为研究需要创造力,但事实上,自律性会帮助你将创造力转化为成功。组织与记录能力,缺一不可。

24504eb994df71f2dc321be79ee061e4.png

你的网课很受欢迎,许多中国学生甚至在网上开玩笑说,你才是他们真正的导师。你是怎么设计出这些优秀的课程的?你怎么平衡课程难度和有趣程度?

听到这个消息让我非常鼓舞。我很高兴听到大家喜欢我的课。对此,我也没有一个特别聪明的答案。关于在网上发布的课程,我没怎么认真考虑过平衡的事情。主要是踏实地备课,如何教好学生。但我也没有刻意把课程简单化,因为教授的内容本身就很复杂。这可能不是什么好策略(笑)。

Pi宏伟蓝图:创建属于机器人的大模型

你和Chelsea Finn开了一家公司Pi,你的短期目标和长期目标是什么?

Physical Intelligence是我、Finn教授以及其他一些认识很多年的合作伙伴,比如Karol Hausman、Brian Ichter和Quan Vuong等一起创办的。Physical Intelligence的目标是开发用于机器人的基础模型,我们希望使机器人系统能够以任何化身的形态长期执行任何具体任务。

对此,我们有一个非常宏大的计划,但还处于早期阶段。一切都在进行中,有望在未来几个月分享更多细节。

从业务方面来说,你如何平衡不断追求前沿研究?比如,为未来的产品找到商业模式?

关于这个问题,我没有一个很确切的答案。机器人技术不仅具有创造经济价值的巨大潜力,而且实际上具有某种社会价值,比如说大量的劳动力。我认为,我们可以通过一种非常通用和灵活的方式,实现机器人新的功能,以便我们可以用同一类型的系统来处理各种不同的任务。我认为这可以创造巨大的价值。机器人不断更新的能力能够带来劳动的自动化,创造极大的社会价值,这是毋庸置疑的。而剩下的基本上都只是策略问题。

如何做好研究?不要买奖金低的彩票

最后,你可以给中国观众和听众提几个建议吗?比如一个简单的问题,如何做好研究?

如何做好研究不是一个简单的问题,但却是一个非常好的问题。如何做出好的研究,没有锦囊妙计,但是不好的研究却千篇一律。做研究之前先想想最好的结果是什么样的,最好的结果都不是很好,那研究本身肯定不好。就像买彩票一样,如果中奖奖金本身就低,那么就不要买那个彩票。其次就是坚持不懈,不怕失败,不断尝试,直到最终成功。每个研究者都要考虑最好的结果。如果你针对这方面去优化,基本上这就是你能做到的最好的事。

2798d64528a391d46fdeb2b53f850ea0.jpeg

- 推荐阅读 -

19fa82907dad46351a3233c1eb144b5c.jpeg

独家丨专访宇树创始人王兴兴:偏科不可怕,只要把擅长的事做到极致

3c8bf28ca253f1031afef6558eb7be70.jpeg

专访特斯拉工程师杨硕:跟着机器人上天入地、探索地外行星丨智源独家

  • 9
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值