南京大学俞扬:环境模型学习——让强化学习走出游戏

俞扬,博士,南京大学教授,国家万人计划青年拔尖人才,南栖仙策创始人。主要研究领域为机器学习、强化学习,近期专注于开放环境强化学习的理论、技术、与落地应用。获 2020 CCF-IEEE“青年科学家奖”,入选 2018 IEEE Intelligent Systems 杂志评选的“国际人工智能10大新星”,获2018亚太数据挖掘"青年成就奖”,受邀在 IJCAI’18 作关于强化学习的"青年亮点"报告。获 2013 年全国优秀博士学位论文奖、2011 年 CCF 优秀博士学位论文奖。

报告内容:强化学习研究大多被限制在游戏环境中,尚处于“好看不好用”的境地。基于环境模型的强化学习被认为是有望解救强化学习样本效率低下的主要途径。一旦有了良好环境模型,强化学习的大量试错可在环境模型中完成,从而极大的减少了在真实环境的试错采样的数量,使得强化学习更具可用性。然而,以往环境模型学习的理论与实验均难以支持这一想法,使得研究主流逐渐抛弃对学习良好环境模型的期待。报告人在实践需求中看到,环境模型具有难以替代的应用优势,并在环境模型学习上开展了研究。本次报告将汇报环境模型学习的研究进展,及其在真实强化学习应用中的效用。

俞扬作《环境模型学习——让强化学习走出游戏》主题分享

下方有文字版总结哦

如何让强化学习用起来

俞扬首先引出“我们怎么样能让强化学习用起来?”作为切入点,在整个人工智能领域,不同的分支存在不同的阶段,对于强化学习来说目前主要的任务是实现决策过程。

近几年非常出名的案例就是AI在围棋和游戏领域都能够取得比较好的结果,围棋AI战胜了几乎所有人类高手,在游戏领域也可以达到人类顶尖高手的水平,从另一个方面来说,同一套方法、同一套算法可以在很多不同的环境下取得比较好的结果,在决策AI领域,这样的方法可能具有一定的通用性。在序列决策(Sequential Decision)任务中,环境收到决策后,其本身会发生变化,智能体(Agent)在环境中不断观测环境状态的变化然后来做出下一步决策。这样的序列决策背后数学模型可以描述为一个马尔可夫决策过程(MDP),在这个模型中如果知道其中的全部变量,那么求解最优策略会变得非常清晰。简单来说,今天所看得到的动态规划算法,都可以用在马尔可夫决策过程上迭代求解最优策略。

俞扬表示,在现实世界中,当我们想分析一个策略(Policy)的效果时,不会像围棋那样把所有路径的全部信息都收集到再进行判断。对于强化学习来说,它并不清楚这个环境(Environment)完整的数学模型,只能通过与环境的交互能得到结果,在实际应用时往往只能选取比较保险的动作(Action)执行。

退回到强化学习的目标,需要找到的是更优决策,那就要跳出原来已经尝试过的决策和数据,这样才有可能找到更优的决策。

强化学习的应用难点及对策--环境模型学习

从根本上说,强化学习和我们以往做监督学习做感知类算法的区别就在于所面临的数据没有独立同分布的假定,强化学习算法所面临的难度相比于感知类算法会更大,在真实的业务场景内是没有完整模型的。人类更多的时候是在构建这样一个马尔可夫决策过程的模型,因为很多决策一旦做错,带来的是灾难性的后果,所以我们不能完全基于试错方式在真实环境下使用。

offline-RL方向更多的是DQN或Q-Learing等value-base算法,但是这样也会限制我们进行策略提升的范围,在这一领域最近出现了一些Benchmark,这些Benchmark的建设基本上还是基于游戏的场景,而且这些Benchmark的设定也有一些问题,比如D4RL提供的数据是非常大的,有很多探索性的策略产生的数据,但在我们真实的环境上很难遇到。另一方面,在上线之前没有办法了解策略的性能。针对这些不足,俞扬团队提出了NeoRL,作为一个新的Benchmark,一部分采用游戏环境,另一部分采用更接近于工业场景的环境。为此也同步开源了算法库和数据集,用于强调做线下验证的观点。如果能在只有数据信息的条件下还原模型,我们就可以打通学到的环境模型和真实的环境,做到这一步,强化学习的技术才是一个可以走出游戏环境的技术。

随后俞扬分析了累积误差的数学模型,从理论方向为减小累积误差问题提供了方案。并且解读了“NeurIPS2019” Michael Janner等人的工作和“NeurIPS2020”俞扬团队的工作,俞扬及其团队在2016-2019年期间一直在进行关于学习环境模型的问题研究,并且在与淘宝、滴滴出行、菜鸟仓库合作的过程中进一步得到了验证。直到今天,其团队仍在构建基于数据实现决策过程的平台,应用于不同的任务和不同的任务场景,从营销到智能制造再到能源,多方面进行落地尝试,为决策AI赋予更多可能。俞扬认为像强化学习这样的技术,未来一定是一个能够改变世界的技术。

扫码即可了解更多开源信息~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值