RL算法改进汇总(会议)-2020

原文作者:https://www.zhihu.com/people/zhou-bo-54-20/posts

github:https://github.com/PaddlePaddle/PARL/tree/develop/papers

 

一、AAAI

1. Proximal Distilled Evolutionary Reinforcement Learning

Cristian Bodnar, Ben Day, Pietro Lio ́

 

简述:近期比较关注进化学习在强化学习问题上的应用,原因在于进化学习的更新方式相比强化学习更加“黑盒“,在实际落地过程中会更加容易部署,迭代速度更快。这个文章主要关注的工作是进化学习算法中的交叉、变异等操作对于神经网络预测结果带来的剧烈变动。为此,作者提出了使用萃取父代预测结果的方法来解决交叉问题,同时根据Critic函数来决定萃取哪个父代的预测结果,另外,还引入了动态调整高斯噪声大小的机制,缓解变异不可控的问题。

2. Uncertainty-Aware Action Advising for Deep Reinforcement Learning Agents

Felipe Leno da Silva (University of Sao Paulo)*; Pablo Hernandez-Leal (Borealis AI); Bilal Kartal (Borealis AI); Matthew Taylor (Borealis AI)

简述:常见的增加强化学习收敛效率的方案之一是:Learning from demostration。这种方案通过一个专家演示如何执行action,提供学习样本给强化学习算法。但是这种方案会1)限制RL算法的探索2)需要专家演示一个完整的episode,人力成本较大。作者在这篇文章中关注的点是动作建议(Action Advising)。即只有在当前Agent决策的时候对于Action不确定的时候才去咨询专家建议(降低人力成本),其他时间则是agent自行探索。

 

3. Partner Selection for the Emergence of Cooperation in Multi-Agent Systems Using Reinforcement Learning

Nicolas Anastassacos, Stephen Hailes, Mirco Musolesi

简述:多智能体强化学习用来研究社会学中的合作选择。文章通过研究经典的囚徒困境问题,对比单智能体算法和多智能体算法,发现人类群体在选择合作伙伴的时候,倾向于选择过往记录良好的候选者作为合作伙伴,并且不欺骗对方,即便在当前的设定下,欺骗对方可以立即获得很大的收益。这个文章中观察到的现象相当有意思,其中的一些实验结论也解释了为什么人类群体,在自私基因的驱动下,依然会选择全局最优的收益作为自己决策的标准,而不是贪心地选择当前收益最大的决策。同时也解释了为什么大公司会倾向于维护自己的口碑这种社会现象(可能这就是公关部门的由来?)

 

4. Reinforcement Learning with Perturbed Reward

Jingkang Wang, Yang Liu, Bo Li

简述:本文从修正观察到的reward这个角度,提升强化学习算法的鲁棒性。在实际的硬件控制场景中,经常存在传感器存在噪声的问题。大部分的解决方案倾向于把噪声建模成高斯噪声,本文则是从噪声变换的角度来考虑的。也就是,观测到的reward是实际的reward经过一个矩阵(confusion matrix)变换得到的,那么为了还原真实的reward,我们需要把这个矩阵给还原出来,可以理解为【逆】噪声的学习方式。

 

 

5. Deep Model-Based Reinforcement Learning via Estimated Uncertainty and Conservative Policy Optimization

Qi Zhou, HouQiang Li, Jie Wang

简述:作者在model-based RL场景下推导出了Q函数的upperbound,通过ensemble的模型可以计算这个bound。在调整策略的保守性上,作者基于PPO算法,推导出了类似的均值减去方差这种方法来降低variance。(这篇文章并没有细看推导)

 

6. Exploratory Combinatorial Optimization with Reinforcement Learning

Thomas D. Barrett, William R. Clements, Jakob N. Foerster, Alex I. Lvovsky

简述:在使用强化学习解决组合优化(NP-hard problem)问题时,之前的方法大都倾向于采用“增量”的方式来构建组合,也就是,每次往里面新增一个元素。但是这种方法有个缺点,就是当前面的选择不好的时候,会制约后面的选择,使得最终的reward并不高。针对这个问题,作者在组合优化问题上新增了“回撤”的动作候选,并且在reward和观测量上做了些调整。

 

7.Fixed-Horizon Temporal Difference Methods for Stable Reinforcement Learning

Kristopher De Asis, Alan Chan, Silviu Pitis, Richard S. Sutton, Daniel Graves

简述:Sutton参与的工作之一,之前在YouTube上看过这个工作,文章提到的点确实是很新颖的,在大家都在深挖之前的方向时,这篇文章尝试的是另一个方向。作者在这个工作里,只考虑了展开固定长度H的Q函数,在固定长度H之后的reward不再考虑,也就是不像之前的Q那样拟合未来的所有收益。这种固定长度的Q函数在收敛过程中更稳定(不需要target Q网络也可以收敛),在效果上也会比传统的DQN更好,文章也提供了完备的收敛证明,有兴趣的同学可以细读。

 

二、ICLR

 

1. CAUSAL DISCOVERY WITH REINFORCEMENT LEARNING

Shengyu Zhu, Ignavier Ng, Zhitang Chen

评分:8/8/8

简述:这是看到的近年来强化学习用于解决经典NP难问题的第二个工作,上一篇还是18年的时候Google发表的把pointnet work+强化学习+搜索解决TSP的组合优化问题。本文要解决的问题是:在给定了有向无环图的邻域聚合(一阶邻接点聚合)函数后,根据观测到的数据集(若干个样本,每个样本给出所有点的最终表征信息),通过强化学习反向搜索图的原始DAG结构。

 

 

2. Posterior sampling for multi-agent reinforcement learning: solving extensive games with imperfect information

Yichi Zhou , Jialian Li, Jun Zhu

评分:8/6/6

简述:强化学习应用于只能获取到非完全信息的纳什均衡问题。传统的纳什均衡,在可以获取全部信息的情况下,已经有经典的counterfactual regret minimization (CFR) 算法可以解决,但是在不知道全局信息的情况下,比如在打扑克的时候你并不知道对方的牌,这个算法就用不上了。本文作者是通过后验强化学习结合传统方法CFR来解决这种非完整信息的纳什均衡问题,作者主要的贡献是提出了一种新的交互方式,并且证明这种方式逼近纳什均衡的效率是[公式] 。

 

 

3. Harnessing Structures for Value-Based Planning and Reinforcement Learning

Yuzhe Yang , Guo Zhang, Zhi Xu, Dina Katabi

评分:8/8/6

简述:作者观测到在经典MDP问题上的Q模型(比如打表Q(s,a))都是低秩的。如果已知最终模型最终收敛是具有这种特性的,那在训练的过程中直接限制模型学习这种低秩的模型结构可以加快模型的训练速度。作者同时还观测到不仅在经典的MDP问题上有这种低秩现象,并且在状态复杂的环境中,比如Atari游戏,也存在同样的情况。通过matrix estimation 作者重新对收集到的state, action pair进行target调整,得到一个低秩的数据矩阵,通过这个数据矩阵来训练Q网络。

 

 

4. A Closer Look at Deep Policy Gradients

Andrew Ilyas, Logan Engstrom, Shibani Santurkar, Dimitris Tsipras, Firdaus Janoos, Larry Rudolph, Aleksander Madry

评分:8/8/6

简述:尽管近些年policy gradient这一系列的算法在deep RL上得到广泛的拓展并且也在仿真环境中取得不错的效果,但是这类算法的可复现性很差,训练过程中对超参数的敏感度还是很高的(相比监督训练)。本文通过实验说明在实际的policy gradient算法训练过程中,实际的指标和理论优化的目标指标并不是完全变化一致:比如在训练过程中我们固定每次迭代的sample数用来估计梯度,但是发现在迭代次数增加之后,同样的样本量却会有更大梯度预估误差。这篇文章很好地展示了理论优化和实际训练过程中的gap。

 

 

5. Implementation Matters in Deep RL: A Case Study on PPO and TRPO

Logan Engstrom, Andrew Ilyas, Shibani Santurkar, Dimitris Tsipras, Firdaus Janoos, Larry Rudolph, Aleksander Madry

评分:8/8/8

简述:这篇文章从代码实现层面探讨了PPO算法相对TRPO算法的效果提升由来。文章表明PPO在算法层面对于TRPO的提升是微不足道的,更多的效果提升是来自于工程上的代码trick。

 

 

6. A Generalized Training Approach for Multiagent Learning

Paul Muller, Shayegan Omidshafiei, Mark Rowland, Karl Tuyls, Julien Perolat, Siqi Liu, Daniel Hennes, Luke Marris, Marc Lanctot, Edward Hughes, Zhe Wang, Guy Lever, Nicolas Heess, Thore Graepel, Remi Munos

评分:8/8/8

简述:这篇文章主要是研究α-Rank在多人游戏上的应用。相比于针对两个玩家的纳什均衡,α-Rank具有更强的扩展性。(非博弈论选手,这个paper没有细读)

 

 

7.Meta-Q-Learning

Rasool Fakoor, Pratik Chaudhari, Stefano Soatto, Alexander J. Smola

评分:8/8/6

简述:作者发现目前的meta-RL算法的效果和普通的强化学习算法效果是一样的,在增加了上下文信息作为特征之后。紧接着,作者提出了离线的Meta-Q-learning算法,在meta阶段是最大化在不同任务间的平均reward,在adaption阶段则有3部分的loss:最大化当前任务的reward;和meta policy的参数偏离程度;和meta policy预估的偏离程度。其中最后一项loss作者通过衡量两个policy之间的相似度来调整这项loss的大小。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值