![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
paper
困比比
研究方向为机器学习,深度强化学习
展开
-
EXPLORATION BY RANDOM NETWORK DISTILLATION (RND)
文章目录1. Introduction2. Method1. Introduction现有算法在dense reward下能够得到很好的效果,但当reward稀疏时往往性能不佳。在这些情况下,必须有针对性地探索环境。RL的最新发展似乎表明,解决最具挑战性的任务需要处理从并行运行的多个环境副本中获得的大量样本。 鉴于此,期望具有大量经验的,能够很好地扩展的探索方法。 然而,基于计数,伪计数,信息增益或预测增益的许多最近引入的探索方法难以扩展到大量并行环境。本文介绍了一种探索奖励,易于实现,适用于高维.原创 2020-06-25 20:16:26 · 1535 阅读 · 1 评论 -
RECURRENT EXPERIENCE REPLAY IN DISTRIBUTED REINFORCEMENT LEARNING (R2D2)
文章目录1. Introduction2. BACKGROUND2.1. REINFORCEMENT LEARNING2.3. THE RECURRENT REPLAY DISTRIBUTED DQN AGENT3. TRAINING RECURRENT RL AGENTS WITH EXPERIENCE REPLAYReferences:1. IntroductionRL最早的成功是利用replay buffer来提高数据效率并堆叠固定数量的连续帧来克服Atari 2600游戏中的部分可观性。但是,.原创 2020-06-23 15:13:28 · 1989 阅读 · 0 评论 -
Observe and Look Further: Achieving Consistent Performance on Atari
文章目录1. Introduction3. Algorithm3.1. DQN Background3.2. Transformed Bellman Operator3.3. Temporal consistency (TC) loss3.4. Ape-X DQfDReplay buffersActor processesLearner process1. Introduction作者认为,一种算法需要克服三个关键挑战,才能在所有Atari游戏中表现出色。第一个挑战是处理各种奖励分配:无论奖励密.原创 2020-06-20 19:26:59 · 432 阅读 · 0 评论 -
Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)
MCTS based方法(即AlphaGo系列)在很多棋类领域取得了巨大成功,但在这些任务中,模拟器都是完美的、可获得的。但是,在实际问题中,环境动力学通常是复杂且未知的。这项工作提出了MuZero算法,该算法通过将基于树的搜索与学习的模型相结合,可以在一系列具有挑战性和视觉复杂的领域中实现超人的性能,而无需了解其基本动态。 MuZero学习了一个模型,该模型在进行迭代应用时可以预测与规划最直接相关的量:reward,policy和value function。MuZero在57种不同的Atari游戏上达到原创 2020-06-15 12:52:37 · 2124 阅读 · 0 评论 -
Mastering the game of Go without human knowledge (AlphaGo Zero)
AlphaGo的树搜索结合了深度神经网络,这些网络是由专家知识进行监督式学习以及从selfplay中进行强化学习。AlphaGo Zero仅基于强化学习,一个神经网络被训练来预测行为的选择和价值。该神经网络提高了树搜索的性能,从而在下一次迭代中提供了更高质量的移动选择和更强的自我玩法,同时更精确的树搜索又能改善网络性能。文章目录IntroductionReinforcement learning in AlphaGo ZeroEmpirical analysis of AlphaGo Zero trai原创 2020-06-13 19:54:43 · 369 阅读 · 0 评论 -
Mastering the game of Go with deep neural networks and tree search (AlphaGo)
围棋游戏因其巨大的搜索空间以及评估棋盘位置和动作的难度,一直被视为人工智能经典游戏中最具挑战性的游戏。本文使用value network评估棋盘位置,并使用policy network选择行为。这些深度神经网络是通过人类专家游戏中的有监督学习和self-play中的强化学习的新颖组合来训练的。同时,本文还提出一种新的MCTS搜索算法,该算法将蒙特卡洛模拟与价值和策略网络相结合。文章目录IntroductionSupervised learning of policy networksReinforcem原创 2020-06-13 14:45:29 · 702 阅读 · 0 评论 -
Value Prediction Network
本文解决的是离散行为空间的问题。 与AlphaZero类似,VPN使用构建了神经网络来学习状态价值函数,在选择行为时也采取了类似MCTS的规划方法,以求得当前S下的最大Q值。最大的不同之处在于VPN基于option-conditional(对比与一般的action-conditional)学习了抽象动力学模型,动力学模型能够辅助planning和价值函数的训练,同时更准确的planning又能加速网络收敛。文章目录1. Introduction3. Value Prediction Network3.1原创 2020-06-12 10:12:26 · 912 阅读 · 2 评论 -
When to Trust Your Model: Model-Based Policy Optimization
文献目录文章目录1. INTRODUCTION3. Background4. Monotonic Improvement with Model Bias4.1 Monotonic Model-based Improvement4.2 Interpolating Model-Based and Model-Free Updates4.3 Model Generalization in Pract...原创 2019-11-01 18:18:06 · 2404 阅读 · 3 评论 -
Model-Based Reinforcement Learning via Meta-Policy Optimization
文献目录文章目录1. INTRODUCTION1. INTRODUCTION原创 2019-10-14 16:27:28 · 921 阅读 · 0 评论 -
Uncertainty-driven Imagination for Continuous Deep Reinforcement Learning
文献目录文章目录1. Introduction3. Background1. Introduction存在问题:当深度强化学习应用于机器人时,环境与agent之间的交互和重置是昂贵的、繁琐的,甚至会导致物理损坏。尽管可以通过大规模并行化来缓解这一问题,但是提高用于深度强化学习的数据效率是值得的,并且有利于并行和顺序设置来实现日益复杂的任务。在与系统交互最少的情况下,实现更好的数据...原创 2019-09-30 11:10:08 · 669 阅读 · 0 评论 -
Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion
文献目录文章目录1. INTRODUCTION1. INTRODUCTION原创 2019-09-23 15:31:25 · 1152 阅读 · 0 评论 -
MODEL-ENSEMBLE TRUST-REGION POLICY OPTIMIZATION
文献目录文章目录1. INTRODUCTION1. INTRODUCTIONModel-based方法需要学习模型的非常严格的形式,并且需要仔细的调优才能使它们适用。尽管将基于模型的算法扩展到深度神经网络模型是一个简单的想法,但迄今为止,成功的应用相对较少。基于模型的强化学习的标准方法在模型学习和政策优化之间交替。 在模型学习阶段,从与环境的相互作用中收集样本,并使用监督学习将动态模型拟...原创 2019-09-19 16:49:19 · 1053 阅读 · 0 评论 -
Model-Based Value Expansion for Efficient Model-Free Reinforcement Learning
文献目录文章目录1. INTRODUCTION2. Model-Based Value Expansion1. INTRODUCTION丰富的值函数近似器能够很好地完成复杂的任务,但需要与真实世界进行不切实际的大量交互;在相当受限的环境下,基于模型(MB)的方法可以使用习得的模型快速达到近似最优的控制;复杂的环境需要高容量的模型(如更深的神经网络),而当数据量较少的时候,高容量模型容...原创 2019-09-17 15:35:43 · 1568 阅读 · 0 评论 -
Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning
文献目录文章目录原创 2019-08-06 07:10:07 · 2069 阅读 · 0 评论 -
Imagination-Augmented Agents for Deep Reinforcement Learning
文献目录原创 2019-07-29 20:23:37 · 1261 阅读 · 0 评论 -
Deep Reinforcement Learning for High Precision Assembly Tasks
Introduction背景:机械部件的高精度装配要求精度超过机器人精度;经典的编程方法是通过使用称为“示教器”的控制盒来定义关键位置和运动,从而教导机器人执行工业装配任务。 这种在线编程方法通常是繁琐且耗时的。 即使在编程之后,由于环境变化,调整用于将机器人部署到新工厂线的参数也需要很长时间;离线编程或模拟可以减少实际机器人的停机时间,但总体上可能需要比在线编程更长的时间,包括在机器人...原创 2019-06-06 16:59:22 · 737 阅读 · 0 评论