![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
ReinforcementLearning
文章平均质量分 88
困比比
研究方向为机器学习,深度强化学习
展开
-
EXPLORATION BY RANDOM NETWORK DISTILLATION (RND)
文章目录1. Introduction2. Method1. Introduction现有算法在dense reward下能够得到很好的效果,但当reward稀疏时往往性能不佳。在这些情况下,必须有针对性地探索环境。RL的最新发展似乎表明,解决最具挑战性的任务需要处理从并行运行的多个环境副本中获得的大量样本。 鉴于此,期望具有大量经验的,能够很好地扩展的探索方法。 然而,基于计数,伪计数,信息增益或预测增益的许多最近引入的探索方法难以扩展到大量并行环境。本文介绍了一种探索奖励,易于实现,适用于高维.原创 2020-06-25 20:16:26 · 1535 阅读 · 1 评论 -
RECURRENT EXPERIENCE REPLAY IN DISTRIBUTED REINFORCEMENT LEARNING (R2D2)
文章目录1. Introduction2. BACKGROUND2.1. REINFORCEMENT LEARNING2.3. THE RECURRENT REPLAY DISTRIBUTED DQN AGENT3. TRAINING RECURRENT RL AGENTS WITH EXPERIENCE REPLAYReferences:1. IntroductionRL最早的成功是利用replay buffer来提高数据效率并堆叠固定数量的连续帧来克服Atari 2600游戏中的部分可观性。但是,.原创 2020-06-23 15:13:28 · 1989 阅读 · 0 评论 -
Observe and Look Further: Achieving Consistent Performance on Atari
文章目录1. Introduction3. Algorithm3.1. DQN Background3.2. Transformed Bellman Operator3.3. Temporal consistency (TC) loss3.4. Ape-X DQfDReplay buffersActor processesLearner process1. Introduction作者认为,一种算法需要克服三个关键挑战,才能在所有Atari游戏中表现出色。第一个挑战是处理各种奖励分配:无论奖励密.原创 2020-06-20 19:26:59 · 432 阅读 · 0 评论 -
Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)
MCTS based方法(即AlphaGo系列)在很多棋类领域取得了巨大成功,但在这些任务中,模拟器都是完美的、可获得的。但是,在实际问题中,环境动力学通常是复杂且未知的。这项工作提出了MuZero算法,该算法通过将基于树的搜索与学习的模型相结合,可以在一系列具有挑战性和视觉复杂的领域中实现超人的性能,而无需了解其基本动态。 MuZero学习了一个模型,该模型在进行迭代应用时可以预测与规划最直接相关的量:reward,policy和value function。MuZero在57种不同的Atari游戏上达到原创 2020-06-15 12:52:37 · 2124 阅读 · 0 评论 -
Mastering the game of Go without human knowledge (AlphaGo Zero)
AlphaGo的树搜索结合了深度神经网络,这些网络是由专家知识进行监督式学习以及从selfplay中进行强化学习。AlphaGo Zero仅基于强化学习,一个神经网络被训练来预测行为的选择和价值。该神经网络提高了树搜索的性能,从而在下一次迭代中提供了更高质量的移动选择和更强的自我玩法,同时更精确的树搜索又能改善网络性能。文章目录IntroductionReinforcement learning in AlphaGo ZeroEmpirical analysis of AlphaGo Zero trai原创 2020-06-13 19:54:43 · 369 阅读 · 0 评论 -
Mastering the game of Go with deep neural networks and tree search (AlphaGo)
围棋游戏因其巨大的搜索空间以及评估棋盘位置和动作的难度,一直被视为人工智能经典游戏中最具挑战性的游戏。本文使用value network评估棋盘位置,并使用policy network选择行为。这些深度神经网络是通过人类专家游戏中的有监督学习和self-play中的强化学习的新颖组合来训练的。同时,本文还提出一种新的MCTS搜索算法,该算法将蒙特卡洛模拟与价值和策略网络相结合。文章目录IntroductionSupervised learning of policy networksReinforcem原创 2020-06-13 14:45:29 · 702 阅读 · 0 评论 -
Value Prediction Network
本文解决的是离散行为空间的问题。 与AlphaZero类似,VPN使用构建了神经网络来学习状态价值函数,在选择行为时也采取了类似MCTS的规划方法,以求得当前S下的最大Q值。最大的不同之处在于VPN基于option-conditional(对比与一般的action-conditional)学习了抽象动力学模型,动力学模型能够辅助planning和价值函数的训练,同时更准确的planning又能加速网络收敛。文章目录1. Introduction3. Value Prediction Network3.1原创 2020-06-12 10:12:26 · 912 阅读 · 2 评论 -
强化学习算法:AC系列详解
文章目录ACA2CA3CACA2CA3C原创 2020-03-21 17:02:14 · 24941 阅读 · 2 评论 -
强化学习算法:DQN系列详解
文章目录SarsaQ-LearningDQNDouble DQNDueling DQNReferences:SarsaSarsa 的名称来源于下图所示的序列描述:给定一个状态SSS,个体通过行为策略产生一个行为AAA,即产生一个状态行为对(S,A)(S,A)(S,A),环境收到个体的行为后会返回即时奖励RRR以及后续状态S’S’S’;个体在状态S’S’S’ 时遵循当前的行为策略产生一个新行为A...原创 2020-03-19 20:20:04 · 3452 阅读 · 0 评论 -
When to Trust Your Model: Model-Based Policy Optimization
文献目录文章目录1. INTRODUCTION3. Background4. Monotonic Improvement with Model Bias4.1 Monotonic Model-based Improvement4.2 Interpolating Model-Based and Model-Free Updates4.3 Model Generalization in Pract...原创 2019-11-01 18:18:06 · 2404 阅读 · 3 评论 -
Model-Based Reinforcement Learning via Meta-Policy Optimization
文献目录文章目录1. INTRODUCTION1. INTRODUCTION原创 2019-10-14 16:27:28 · 921 阅读 · 0 评论 -
Uncertainty-driven Imagination for Continuous Deep Reinforcement Learning
文献目录文章目录1. Introduction3. Background1. Introduction存在问题:当深度强化学习应用于机器人时,环境与agent之间的交互和重置是昂贵的、繁琐的,甚至会导致物理损坏。尽管可以通过大规模并行化来缓解这一问题,但是提高用于深度强化学习的数据效率是值得的,并且有利于并行和顺序设置来实现日益复杂的任务。在与系统交互最少的情况下,实现更好的数据...原创 2019-09-30 11:10:08 · 669 阅读 · 0 评论 -
Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion
文献目录文章目录1. INTRODUCTION1. INTRODUCTION原创 2019-09-23 15:31:25 · 1152 阅读 · 0 评论 -
MODEL-ENSEMBLE TRUST-REGION POLICY OPTIMIZATION
文献目录文章目录1. INTRODUCTION1. INTRODUCTIONModel-based方法需要学习模型的非常严格的形式,并且需要仔细的调优才能使它们适用。尽管将基于模型的算法扩展到深度神经网络模型是一个简单的想法,但迄今为止,成功的应用相对较少。基于模型的强化学习的标准方法在模型学习和政策优化之间交替。 在模型学习阶段,从与环境的相互作用中收集样本,并使用监督学习将动态模型拟...原创 2019-09-19 16:49:19 · 1053 阅读 · 0 评论 -
Model-Based Value Expansion for Efficient Model-Free Reinforcement Learning
文献目录文章目录1. INTRODUCTION2. Model-Based Value Expansion1. INTRODUCTION丰富的值函数近似器能够很好地完成复杂的任务,但需要与真实世界进行不切实际的大量交互;在相当受限的环境下,基于模型(MB)的方法可以使用习得的模型快速达到近似最优的控制;复杂的环境需要高容量的模型(如更深的神经网络),而当数据量较少的时候,高容量模型容...原创 2019-09-17 15:35:43 · 1568 阅读 · 0 评论 -
CS294(6) 演员-评论家算法(总结版)
文章目录策略梯度法与值函数的结合Backgroundbaseline演员-评论家算法policy evaluationMonte Carlo evaluation with function approximationAn actor-critic algorithm贴现因子(discount factors)实现细节网络结构设计Online actor-critic in practiceCri...原创 2019-09-15 22:02:25 · 3093 阅读 · 0 评论 -
CS294(5) 策略梯度法(总结版)
文章目录策略梯度法REINFORCEPartial observability问题一:高方差问题背景方差削减方法一:因果关系(causality)方法二:baseline问题二:on-policy问题问题三用自动差分器做策略梯度法策略梯度法在实践中的注意事项我们已经知道智能体通过增强学习与环境打交道的运作机理:状态sss下根据由参数θ\thetaθ的神经网络所表示的测量πθ(a∣s)\pi...原创 2019-09-15 16:07:00 · 1007 阅读 · 0 评论 -
CS294(8) 深度增强学习中的Q学习方法(总结版)
BackgroundQ学习方法抛开了一个显式的策略,直接去学习Q函数,使我们知道在某个特定的状态下执行某一操作效果有多好。但是如果我们使用神经网络来进行拟合可能出现的不收敛现象,这一问题将在所有的使用某些结构(如神经网络)拟合值函数,然后使用拟合的值函数作为“评论家”来做自助的方法中都存在。Replay Buffer & Target Network以on-line Q迭代算法为例,...原创 2019-09-14 20:01:29 · 1684 阅读 · 0 评论 -
Reinforcement Learning:An Introduction Chapter 1 Introduction
Chapter 1: Introduction人类与环境进行互动,学习环境如何响应我们的行为,并试图通过自身行为影响将来发生的事,这就是一种交互式的学习方式,是人类获取知识的主要来源,同时也是几乎所有学习和智能化理论的基本思想。强化学习正是一种从交互中学习的计算方法,它更侧重于从交互中进行目标导向的学习方式,而不是其他的机器学习方式。1.1 Reinforcement Learning强化...原创 2019-03-22 09:58:19 · 955 阅读 · 0 评论 -
CS231n Lecture 14 | Reinforcement Learning
Lecture 13主要讲解了无监督模型和生成模型,其中详细介绍了生成模型中的pixelRNN、pixelCNN、VAE、GAN等图像生成方法。本博客与https://xuyunkun.com同步更新原创 2018-10-12 11:28:25 · 608 阅读 · 0 评论 -
David Silver强化学习课程 Lecture 2: Markov Decision Processes
文章目录AbstractMarkov PropertyMarkov ChainExample:Student Markov ChainMarkov Reward ProcessExample: Student Markov Reward ProcessReturn(回报)Value functionExample: Student MRP ReturnsBellman EquationExampl...原创 2019-03-22 09:58:07 · 580 阅读 · 0 评论 -
Reinforcement Learning:An Introduction Chapter 2 Multi-armed Bandits
文章目录Abstract2.1 k-摇臂赌博机Abstract强化学习使用训练信息来评估所采取的动作,而非使用正确的动作来指导动作的选择。评估性反馈完全依赖于所采取的动作,而指示性反馈独立于所采取的动作。本章讨论的是在单个状态下学习如何采取动作,即非关联性(nonassociative)。2.1 k-摇臂赌博机问题描述:k-摇臂赌博机可以看做k个老虎机,每个老虎机的奖赏都是从某个固定...原创 2019-03-22 09:58:00 · 438 阅读 · 2 评论 -
David Silver强化学习课程 Lecture 1: Introduction to Reinforcement Learning
.原创 2019-03-22 09:57:37 · 522 阅读 · 0 评论 -
Reinforcement Learning:An Introduction & David Silver & CS294 强化学习课程 学习笔记
笔记Chapter 1 Introduction;Chapter 2 Multi-armed Bandits;Chapter 3 Finite Markov Decision Processes;由于时间有限,第三章开始的笔记链接到的是References中的文章。以后有时间,有新的感悟或补充,会写出来以供交流。References[1] Reinforcement Learning:...原创 2019-03-22 09:57:48 · 301 阅读 · 0 评论 -
强化学习文献笔记:Index
督促,温故知新,归纳总结。...原创 2019-04-25 15:58:42 · 1511 阅读 · 0 评论 -
Deep Reinforcement Learning for High Precision Assembly Tasks
Introduction背景:机械部件的高精度装配要求精度超过机器人精度;经典的编程方法是通过使用称为“示教器”的控制盒来定义关键位置和运动,从而教导机器人执行工业装配任务。 这种在线编程方法通常是繁琐且耗时的。 即使在编程之后,由于环境变化,调整用于将机器人部署到新工厂线的参数也需要很长时间;离线编程或模拟可以减少实际机器人的停机时间,但总体上可能需要比在线编程更长的时间,包括在机器人...原创 2019-06-06 16:59:22 · 737 阅读 · 0 评论 -
Imagination-Augmented Agents for Deep Reinforcement Learning
文献目录原创 2019-07-29 20:23:37 · 1261 阅读 · 0 评论 -
Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning
文献目录文章目录原创 2019-08-06 07:10:07 · 2069 阅读 · 0 评论 -
David Silver强化学习课程 Lecture 2: Markov Decision Processes(总结版)
马尔可夫性:某一状态信息包含了所有相关的历史,只要当前状态可知,所有的历史信息都不再需要,当前状态就可以决定未来,则认为该状态具有马尔科夫性。可以用下面的状态转移概率公式来描述马尔科夫性:马尔科夫过程:又叫马尔科夫链(Markov Chain),它是一个无记忆的随机过程,可以用一个元组<S,P>表示,其中S是有限数量的状态集,P是状态转移概率矩阵。马尔科夫奖励过程:在马...原创 2019-09-11 16:48:59 · 245 阅读 · 0 评论 -
David Silver强化学习课程 Lecture 3: Planning by Dynamic Programming(总结版)
动态规划算法把求解复杂问题分解为求解子问题,通过求解子问题进而得到整个问题的解。当问题具有下列两个性质时可以考虑使用动态规划求解:一个复杂问题的最优解由数个小问题的最优解构成,可以通过寻找子问题的最优解来得到复杂问题的最优解; 子问题在复杂问题内重复出现,使得子问题的解可以被存储起来重复利用。马尔科夫过程具有上述两个性质:贝尔曼方程把问题递归为求解子问题,价值函数相当于存储...原创 2019-09-11 16:51:20 · 231 阅读 · 0 评论 -
David Silver强化学习课程 Lecture 5: Model-Free Control(总结版)
2、离线策略学习 Off-Policy Learning现时策略学习的特点就是当前遵循的策略就是个体学习改善的策略。离线策略学习(Off-Policy Learning)则指的是个体通过策略μ(a|s)生成行为与环境进行实际交互,但是在更新这个状态行为对的价值时使用的是目标策略π(a|s)。π(a|s)多数是已经具备一定能力的策略例如人类已有的经验。为什么要这么做呢?因为这样可以较容易的...原创 2019-09-11 16:56:46 · 251 阅读 · 0 评论 -
David Silver强化学习课程 Lecture 7: Policy Gradient(总结版)
1. 基于策略学习的优点:总是沿着梯度方向在改善策略,具有更好的收敛性; 基于值的方法难以解决行为空间连续的问题,基于策略的方法则很容易; 可以学习到随机策略; 可以解决观测受限的问题; 有时候计算价值函数十分复杂,基于策略则很简单。基于策略学习的缺点:原始的基于梯度的方法方差较高,效率低下。2.策略目标函数:2.1、star value:在能够产生完整Episode...原创 2019-09-11 17:03:16 · 543 阅读 · 0 评论 -
CS294(7) 基于值函数的方法(总结版)
PG算法与AC算法本质上都是寻找策略梯度,只是AC算法同时使用了某种值函数来试图给出策略梯度的更好估计。但是策略梯度算法通常有非常高的方差,因此希望能够抛开策略梯度这一架构。优势函数Aπ(st,at)=Qπ(st,at)−Vπ(st)A^{\pi}(s_t,a_t)=Q^{\pi}(s_t,a_t)-V^{\pi}(s_t)Aπ(st,at)=Qπ(st,at)−Vπ(st),指的是给...原创 2019-09-14 13:08:28 · 1332 阅读 · 0 评论