![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文笔记
gorilla1211
这个作者很懒,什么都没留下…
展开
-
论文笔记 Diversity-Driven Exploration Strategy for Deep Reinforcement Learning
摘要本文出自NerulIPS 2018会议。高效探索是强化学习中的一个挑战性研究问题,尤其是在环境中包含大的状态空间,欺骗性或稀疏的奖励时。为了解决这个问题,本文提出了一个关于探索的多样性驱动的方法,可以被轻松地与在线或离线强化学习算法相结合。该方法包括添加一个损失函数的距离测量正则化来防止策略陷入局部最优值,提出一个自适应缩放策略来巩固性能。介绍本文提出了一个多样性驱动的探索策略,鼓励一个DRL agent去尝试与先验策略不同的策略。提出了一个距离测量来改进损失函数去解决大状态空间、.原创 2020-08-03 09:36:27 · 569 阅读 · 0 评论 -
论文笔记 Benchmarking Model-Based Reinforcement Learning
摘要Model-based强化学习(MBRL)比Model-free强化学习(MFRL)更加sample efficient。目前对于MBRL的研究没有标准,作者们可能会使用自己设计的环境、一些闭源且不能复现的结果。本文收集了大批MBRL算法,并在18个为MBRL特别设计的基准环境上按照统一的设置运行。本文还描述了三个未来MBRL研究的关键挑战:动力瓶颈、规划周期困境、提前终止困境、介绍尽管近期MBRL的研究取得喜人的进展,这些方法是如何相互比较的,以及如何与baseline比较是不明确的.原创 2020-08-01 21:23:10 · 1331 阅读 · 0 评论 -
论文笔记 Reinforcement Learning with Derivative-Free Exploration
摘要高效的探索是sample-efficient强化学习的关键。目前最普遍常用的方法(如-greedy)仍是低效率的,而无梯度优化(derivative-free optimization)发明了高效的方法来更好地全局搜索。本文介绍一种无梯度探索(DFE)作为一种早期强化学习的常用高效探索方法。DFE克服了基于纯无梯度优化的强化学习方法的优化低效和可扩展性差的缺点。本文实验通过在确定离线策略方法DDPG和随机离线策略方法ACER算法中使用用DFE来探索轨迹,并应用于高维离散动作环境Atari和连续控制环原创 2020-07-30 20:14:26 · 390 阅读 · 0 评论 -
论文笔记 Exploration for Reinforcement Learning
摘要本文定义并强调了在强化学习背景下的安全探索(safe exploration)问题。安全的概念和将导致毁坏因而必须避免的状态与转移有关。本文介绍了用来确定一个状态安全度的安全函数,与一个可以将系统从严峻状态变回安全状态的备份策略(backup policy)。本文还展示了一个分级探索(level-based exploration)方案,它可以生成一个综合的观察基础(comprehensive base of observation),同时支持安全约束。本文在一个燃气轮机的简化仿真上评估提出的方法。原创 2020-07-30 10:37:18 · 324 阅读 · 0 评论 -
论文笔记 Learning Reward Machines for Partially Observable Reinforcement Learning
摘要Reward Machines 提供了一种对奖励函数进行结构化的、基于自动机的表示,让agent得以将一个RL问题分解成结构化的子问题,这样一来可以通过离线学习(off-policy)高效解决。本文展现了RM可以通过经验学习到(而不是由用户来具体说明),以及问题分解可以用来有效解决部分可观察的(partially observable)RL问题。作者将学习RM的任务作为一个离散的优化问题,其目标是找到一个可以将一个问题分解成一系列子问题的RM。这些子问题的最优无记忆(optimal memory原创 2020-07-27 00:13:18 · 388 阅读 · 0 评论 -
论文笔记 Joint Inference of Reward Machines and Policies for Reinforcement Learning
摘要吸取高阶知识(high-level knowledge)是加快强化学习的一个有效途径。论文研究了一种强化学习问题,其中高阶知识是以reward machines的形式存在的。reward machine是Mealy状态机(Mealy machine)的一类,使用了非马尔科夫(non-Markovian,奖励不仅依赖于当前状态,也依赖于历史状态)的奖励函数(reward function)。论文关注于一个设定,其中这种知识是不能为学习agent所用的先验知识。论文提出了一种迭代算法,该算法对强化学原创 2020-07-24 22:40:50 · 373 阅读 · 0 评论 -
论文笔记 Hierarchical Deep Q-Network from Imperfect Demonstration in Minecraft
摘要论文作者通过使用Hierarchical Deep Q-Network(HDQfD)在MineRL比赛中获得第一名。HDQfD工作在不完美的示范上,并且使用了专家轨迹(expert trajectories)的分层结构。论文介绍了从示范数据中提取出一个元动作(meta-actions)和子目标(subgoals)的有效序列的程序。论文展示了一个结构化的任务依赖的replay buffer和一个自适应优先级排序(adaptive prioritizing)技术。这让HDQfD得以逐渐从buffer中淘原创 2020-07-26 11:48:40 · 311 阅读 · 0 评论 -
论文笔记 Retrospective Analysis of the 2019MineRL Competition on Sample Efficient Reinforcement Learning
摘要论文作者在NeurIPS2019举办了在利用人类先验知识的sample-efficient强化学习上的MineRL挑战赛。强化学习中agent和环境的交互成本较高,若一个算法可以尽量少地与环境交互,即用尽量少的样本数量进行训练,则该算法是sample efficient的。MineRL挑战赛旨在发展使用协同人类示范(human demonstration)的强化学习来减少样本数量的算法。这些样本是指用以解决复杂的、分层的(hierarchical)、稀疏(sparse)的环境的样本。论文回顾top解原创 2020-07-22 16:08:12 · 244 阅读 · 0 评论