142页"ICML会议"强化学习笔记整理,值得细读


作者 | David Abel
编辑 | DeepRL
来源 | 深度强化学习实验室(ID: Deep-RL)

ICML 是 International Conference on Machine Learning的缩写,即国际机器学习大会。ICML如今已发展为由国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议。其中强化学习便是该会议很重要的一个话题,每年都有非常多的投稿。本文整理了David Abel总结的ICML2018、2019两年的深度强化学习笔记,详看正文。

1

ICML-2019-RL-Note

640?wx_fmt=png
640?wx_fmt=png
640?wx_fmt=png

作者整理简介:我在本次会议的RL分场上度过了大部分时间(可惜错过了所有主题演讲), 所以我的大部分反思(和笔记)都集中在RL:

  • 关于非策略评估和非策略学习的大量工作(例如,参见Hanna  等人[35],Le等人[49],Fujimoto等人[26],Gottesman等人的工作)等[32]
  •  探索再次成为一个热门话题(参见Mavrin等人[57],Fatemi等人[25],Hazan等人[37],Shani等人[76]的工作)。除了策略评估(以及其他一些评估),这也是RL中的基本问题之一。
  • 一些非常好的工作继续澄清分布式RL [10](参见[74,57,67]的工作)。
  • 作者认为我们需要标准化RL中的评估。并不是说我们只需要一个单一的方法或一个域,而是目前评估协议中有太多差异。

元学习&元强化学习

元学习算法通用方法
  1. Choose a form of Pr(φi | Dtrain i , θ).
  2. Choose how to optimize θ with respect to max-likelihood objective using Dmeta-train.
640?wx_fmt=png
为什么元强化学习有用?

几乎所有问题都与现有方法的样本效率低下有关。将TRPO应用于真正的机器人时,机器人需要花费数天或数周的时间才能开始取得任何进展(学习步行)。
通常情况下,智能体的目标是学习一个策略最大化累计期望奖励。

640?wx_fmt=png

而且,RL目标的元学习问题是学习 640?wx_fmt=png ,因此,元RL问题如下:

640?wx_fmt=png

其优化过程如下:

640?wx_fmt=png

当然元学习有它的优势,也有对应的挑战。

挑战1:超量配置:元学习需要任务分配,一些元学习方法可能会过度适合这些任务分配。
挑战2:任务设计:通常必须手动选择这些任务分配,或者它们的多样性不足以鼓励正确的行为。很难以正确的方式选择任务分配!
挑战3:了解哪种算法过度拟合:许多不同的方法(黑盒,基于优化的非参数方法),但是我们不知道哪种算法最容易遭受元过度拟合。

图强化学习

图模型最近在深度学习中特别的人们,然而在强化学习中也是独领风骚:TibGM: A Graphical Model Approach for RL
640?wx_fmt=png
640?wx_fmt=png

还有包括分布式强化学习,理论等相关内容,详见文末PDF2019

2

ICML-2018-RL-Note

640?wx_fmt=png
640?wx_fmt=png

Github查看(欢迎star仓库):
https://github.com/NeuronDance/DeepRL/tree/master/DRL-ConferencePaper/ICML/Source

(*本文为 AI科技大本营转载文章, 载请 联系原作者


精彩推荐


2019 中国大数据技术大会(BDTC)再度来袭!豪华主席阵容及百位技术专家齐聚,15 场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读,深入解析热门技术在行业中的实践落地。


即日起,限量 5 折票开售,数量有限,扫码购买,先到先得!

640?wx_fmt=png


推荐阅读

640?wx_fmt=png

你点的每个“在看”,我都认真当成了AI

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值