上交张伟楠副教授:基于模型的强化学习算法,基本原理以及前沿进展(附视频)

上海交通大学张伟楠副教授在2020北京智源大会上探讨了基于模型的强化学习(MBRL)的基本原理和前沿进展。MBRL旨在通过建立环境模型提高数据效率,对比无模型强化学习(MFRL),MBRL在数据采样效率上有优势,但也面临模型误差和复合误差问题。文章介绍了MBRL的黑盒模型和白盒模型,重点讲解了Dyna算法、MPC以及MBPO和最新的BMPO算法,展示了MBRL在复杂问题和多智能体强化学习中的应用潜力。
摘要由CSDN通过智能技术生成

2020 北京智源大会

本文属于2020北京智源大会嘉宾演讲的整理报道系列。北京智源大会是北京智源人工智能研究院主办的年度国际性人工智能高端学术交流活动,以国际性、权威性、专业性和前瞻性的“内行AI大会”为宗旨。2020年6月21日-24日,为期四天的2020北京智源大会在线上圆满举办。来自20多个国家和地区的150多位演讲嘉宾,和来自50多个国家、超过50万名国内外专业观众共襄盛会。

6月24日上午,在第二届北京智源大会“强化学习专题论坛”上,上海交通大学张伟楠副教授做了主题为《Model-based Reinforcement Learning: Fundamentals and Advances》的演讲。

 

张伟楠,上海交通大学副教授,主要研究领域为强化学习、深度学习、数据科学、知识图谱等,2017年获得上海ACM新星奖,2018年获得首届达摩院青橙奖。

 

在本次报告中,张伟楠从无模型强化学习与有模型强化学习的对比开始,结合基于黑盒的有模型强化学习的发展历史,深入浅出地讲解了有模型强化学习诸多算法的基本概念、算法起源、实现原理、理论分析以及实验结果等,详细介绍了所在课题组在这一领域的最新工作进展,并对这一领域今后的发展方向进行了前瞻性的总结概述。

 

整理:智源社区  张文圣

一、基于模型的深度强化学习算法研究背景

 

张伟楠介绍,深度强化学习算法自提出以来,常用于Atari Game、围棋、DOTA、星际等虚拟场景中。人们通常将这种不建立环境模型,仅依靠实际环境的采样数据进行训练学习的强化学习算法称为无模型强化学习(Model-Free Reinforcement Learning,MFRL)算法,也即是不依赖于环境模型的强化学习算法。这种方法适合应用于深度神经网络的框架,人们将大量数据以Mini-Batch的形式传入神经网络,可以对价值网络或者策略网络进行非常高效的训练。

 

然而,MFRL发展中遇到的一个困境:数据采集效率(Sample Efficiency)太低。在有监督或无监督学习中,人们构建一个目标函数,通过梯度下降(或上升)的方式,不断趋近理想结果。与有监督/无监督学习不同的是,强化学习属于一种试错的学习范式,当前策略的采样结果如果无法有效帮助当前策略进行提升,则可以认为当前试错的采样结果是无效采样。在MFRL训练过程中,智能体有大量的交互采样属于无效采样,这些采样没有对行动策略的改进产生明显的影响。为了解决无模型强化学习中的这一数据效率低下的问题,人们开始转向基于模型强化学习(Model-Based Reinforcement Learning,MBRL)的方法。

 

MBRL的基本思想在于首先建立一个环境的动态模型,然后在建立的环境模型中训练智能体的行动策略,通过这种方式,实现数据效率的提升。

 

将MBRL与MFRL对比来看,MBRL存在如下特点:

 

1. 环境模型一旦建立起来,便可以采用on-policy的训练方法,利用当前采样得到的数据训练当前的策略,在这种情形下,采样效率是最高的。

 

2. 建立环境模型后,便可以选择性地不再与实际场景交互,在模型中进行训练学习,完成训练后再在实际场景中投入使用(off-line RL,也称为batch RL)。

 

3. 相比于MFRL,MBRL数据采样效率会往往有较大的提升。

 

4. 存在模型与实际环境之间的复合误差问题(Compounding Error),模型向后推演的幅度越长,推演误差就会越大,直至模型完全失去作用。

 

而MFRL,则存在如下特点:

 

1. 相比于MBRL,MFRL拥有最好的渐进性能(Asymptotic Performance),当策略与环境交互达到收敛状态时,相比于MBRL,MFRL下训练所得策略所最终达到的性能会更好,能够避免出现复合误差的问题,因而在实际环境中表现会更为优异。

 

2. MFRL非常适合使用深度学习框架去采样超大规模的数据,并进行网络训练。

 

3. MFRL经常采用Off-Policy训练方法,这种情况下会有偏差(Bias)导致的训练效果不稳定(instability)的问题。

 

4. MFRL需要进行超大量的数据采样,因而需要超高的算力要求,这种算力要求是很多科研院所或者企业所无法负担的。

 

关于MBRL的进一步分类,其主要包括黑盒模型与白盒模型两类:

 

黑盒模型中,环境模型的构造是未知的,仅作为数据的采样来源。由于采样数据来自于黑盒模型,而不是和真实环境交互得到,因此这些来自模型的采样数据不计入数据采样效率的计算中。虽然从计算结果来看MFBL的数据采样效率较高,但由于训练过程中使用了大量基于模型采样的数据,因此从采样数据总量上来看,实际采样了更多的数据。常用的基于黑盒模型的MBRL算法包括Dyna-Q、MPC、MBPO等。

  

图1:基于黑盒模型的MBRL算法

白盒模型中,环境模型的构造是已知的,可以将模型中状态的价值函数直接对策略的参数进行求导,从而实现对策略的更新。常用的基于白盒模型的MBRL算法包括MAAC、SVG、PILCO等。

 

 图2:基于白盒模型的MBRL算法

二、基于黑盒模型的Dyna算法

 

接下来,张伟楠主要介绍了基于黑盒模型的MBRL算法。这里环境模型的构造未知

  • 4
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值