![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
DRL文章阅读笔记
HoJ Ray
这个作者很懒,什么都没留下…
展开
-
Visual Reinforcement Learning with Imagined Goals
文章来自 University of California, Berkeley,提出了一种将 goal-conditioned RL 与 无监督表示学习相结合的算法 --- RIG (Reinforcement learning with Imagined Goals),该算法具有较高的样本效率,能够在真实世界中训练。原创 2020-06-18 23:19:20 · 524 阅读 · 1 评论 -
REFUEL: Exploring Sparse Features in Deep Reinforcement Learning for Fast Disease Diagnosis
文章来自 HTC Research & Healthcare,提出了一个新算法 ---- REFUEL (REward shaping and FeatUrE rebuiLding),该算法能够有效提升在线疾病诊断的速度和精度。原创 2020-06-14 14:31:05 · 278 阅读 · 0 评论 -
Hierarchical Reinforcement Learning for Zero-shot Generalization with Subtask Dependencies
文章来自University of Michigan,提出了一种能够进行复杂逻辑推理,且能泛化到新环境的 HRL 方法 --- NSGS (neural subtask graph solver)。原创 2020-06-10 21:18:06 · 529 阅读 · 0 评论 -
Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning
文章来自 The Technion - Israel Institute of Technology(以色利理工学院),提出了一种适用于大型离散动作空间任务的方法 --- AE-DQN (Action-Elimination Deep Q-Network)。原创 2020-06-06 23:16:18 · 294 阅读 · 1 评论 -
Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion
文章来自Google Brain,提出了一种使用 model-based RL 算法来提升 model-free RL 算法性能的技巧,名为 STEVE (stochastic ensemble value expansion)。对于 model-free 方法来说,由于 model-based 的方法的引入,所以变得 “Sample-Efficient” 。原创 2020-06-03 15:19:47 · 467 阅读 · 0 评论 -
Data-Efficient Hierarchical Reinforcement Learning
文章来自Google Brain,提出了一种将 off-policy 算法应用在 HRL 框架上的方法 --- HIRO (HIerarchical Reinforcement learning with Off-policy correction)。由于 off-policy 的引入,使得数据可以重复利用,所以叫 "data-efficient"。原创 2020-05-31 00:08:49 · 1528 阅读 · 5 评论 -
Improving Exploration in Evolution Strategies for DRL via a Population of Novelty-Seeking Agents
文章来自Uber AI Labs,主要通过在Evolution Strategies(ES)算法中引入 Novelty Search(NS)算法 和 Quality Diversity(QD)算法来解决RL任务中的探索问题。提出了三个算法 NS-ES, NSR-ES, NSRA-ES。原创 2020-05-24 12:06:58 · 288 阅读 · 0 评论 -
Fast deep reinforcement learning using online adjustments from the past
文章来自 DeepMind,其提出了一种能够更加充分利用 Replay buffer 历史经验数据的RL改进算法 ---- Ephemeral Value Adjusments (EVA)。原创 2020-05-14 22:46:27 · 287 阅读 · 0 评论 -
Diversity-Driven Exploration Strategy for Deep Reinforcement Learning
文章来自清华大学,主要解决的问题是 RL 的探索问题,文中的方法对拥有large state space, sparse reward, deceptive reward的任务很有效。原创 2020-05-13 08:35:46 · 422 阅读 · 0 评论 -
Evolution-Guided Policy Gradients in Reinforcement Learning
文章来自Oregon State University,提出了一种结合 Evolution Algorithm(EA)的RL的算法 --- Evolutionary Reinforcement Learning (ERL),该算法继承了前两者的优点。原创 2020-05-14 08:49:09 · 935 阅读 · 0 评论