南大Lamda实验室俞扬:我的牛年小结

大家好,我是对白。

今天给大家分享一下南大Lamda实验室俞扬老师的牛年总结,该实验室在国内强化学习领域属于Top2级别的,17年本科保研时有幸参加过俞扬老师的面试,他为人非常和蔼,当时的面试题是讲述一下强化学习中的Q-learning与DQN算法,后来虽然保研去了清华,但实验室也经常与南大Lamda合作一些项目,所以对俞扬老师还是非常崇敬的,以下为原文。

去年组里研究生新生入学的时候,有同学提到喜欢看我在知乎上的年终小结,突然想起牛年的小结没写( ° △ °|||) 因此还是觉得有必要总结一下,特别是我们碰到的种种困难,也许能给同学们一点鼓励。

我们这几年一直在发展可落地的强化学习技术。不仅是有“应用前景”,也不仅是在某个特定场景用起来,而要实现在很多决策类任务中解决问题,成为通用的智能决策工具

当下通用落地的关键,我认为在于具备数据驱动的能力,能充分利用历史上不那么好的决策数据,学到更好的策略。因为基于数据的机器学习路径,已经在监督学习的普及应用中验证了落地的便利性。而经典强化学习研究的成果可以说都是基于仿真环境的,仿真的好坏成为制约策略质量的关键,实用性很差。

近几年发展的offline RL或叫batch RL的目标,就是要做数据驱动。然而现在offline RL音量最大的研究组的成果,应用背景考虑的是在实验室中的机器人控制之类的场景,而我们考虑的商业化场景,往往有更多和更严苛的要求,例如有各式各样的约束和第一次上线不成功就滚蛋的要求。因此对于技术路线的选择,也就出现了差异。大量offline RL工作走了model-free的方向,也就是绕开环境模型直接从数据中学策略,而这一方向完全不能满足我们的需求,光是各式各样的约束就没法往上加。只有好的环境模型才能满足需求,我们走的是把model学好的方向。

于是在看着许多model-free offline RL方法、以及Dyna-style model-based RL这一类仅少量的使用model的方法刷出benchmark新高的时候,我们琢磨着怎么把model学好、在full model中训练出能在真实任务上用起来的策略。已公开发表的工作有:

  • 第一次证明了model学习的复合误差可以从平方级降低到线性,且不可再降低。

  • 第一次突破“紧贴数据”保守原则的方法。

总结起来,我们已经在数据驱动的强化学习上做了下图中的一些工作:

图片

基础研究之外,我们花了很大力气把研究成果和应用经验积累到工具里(限于技术同学们都不爱写文档的事实,工具的帮助文档还在不断完善),我们年前还组织了一次强化学习应用比赛,其中一个目的也是为了收到关于工具使用情况的反馈。比赛和工具相关的信息可见「深度强化学习论坛」:

比赛任务源自真实业务,为商家发促销优惠券。历史数据是针对每个用户的“千人千面”优惠券发放的情况。而“千人千面”的策略必然要使用个人特征,不符合现在的大数据使用限制,因此比赛要求得到“千人一面”的发券策略,不能针对单个用户的特征下手,同时也要考虑商家的利益,在整体ROI(盈利率)>=6.5的约束下最大化GMV(总销额)。这里对整体盈利率的要求就是一种常见的决策约束,并且比赛可提交策略的次数有限(实际应用中很可能是1次)。另外说明的是比赛是不限技术类型的,但不提供在线试错。

最近刚有参赛同学在我们的baseline上做出了更好的成绩,也反馈了帮助工具改进的信息。预祝取得更好成绩!

图片

今年RL会在更多的行业场景里用起来,让这种关于行动决策的AI技术在现实中转化为生产力。

如果觉得有用,就请分享到朋友圈吧。

对白的算法屋

一位本科创业赚数百万的清华小哥哥,BAT算法工程师。日常分享AI前沿算法、创业心得和人生感悟。偶尔逗比,一直正能量! 关键词:机器学习、深度学习、推荐系统、自然语言处理

关于我

你好,我是对白,清华计算机硕士毕业,现大厂算法工程师,拿过8家大厂算法岗SSP offer(含特殊计划),薪资40+W-80+W不等。

高中荣获全国数学和化学竞赛二等奖。

本科独立创业五年,两家公司创始人,拿过三百多万元融资(已到账),项目入选南京321高层次创业人才引进计划。创业做过无人机、机器人和互联网教育,保研清华后退居股东。

我每周至少更新三篇原创,分享人工智能前沿算法、创业心得和人生感悟。我正在努力实现人生中的第二个小目标,上方关注后可以加我微信交流。

期待你的关注,我们一起悄悄拔尖,惊艳所有
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员对白

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值