深度强化学习入门
文章平均质量分 90
*pprp*
GiantPandaCV公众号作者,研究方向automl,nas
展开
-
【深度强化学习】9. Policy Gradient实现中核心部分torch.distributions
【导语】:在深度强化学习第四篇中,讲了Policy Gradient的理论。通过最终推导得到的公式,本文用PyTorch简单实现以下,并且尽可能搞清楚torch.distribution的使用方法。代码参考了LeeDeepRl-Notes中的实现。1. 复习θ←θ+η∇Rθˉ∇Rθˉ=1N∑n=1N∑t=1TnR(τn)∇logpθ(atn∣stn)\theta \leftarrow \theta+\eta \nabla \bar{R_\theta} \\\nabla \bar{R_\theta}=\原创 2021-01-16 10:07:22 · 645 阅读 · 0 评论 -
【深度强化学习】8. DDPG算法及部分代码解析
【DataWhale打卡】DDPG算法 Deep Deterministric Policy Gradient视频参考自:https://www.bilibili.com/video/BV1yv411i7xd?p=191、思维导图2. 详解DDPG是解决连续性控制问题的一个算法,但是和PPO不同,PPO输出是一个策略,是一个概率分布。而DDPG输出的是一个动作。DDPG是采用的也是Actor-Critic架构,是基于DQN进行改进的。DQN中的action space必须是离散的,所以不能处理连原创 2020-11-07 20:29:01 · 8522 阅读 · 2 评论 -
【深度强化学习】7. 稀疏奖励和模仿学习
【DataWhale打卡】李宏毅老师视频中的最后两部分,sparse reward和imitation learning。文章目录1. Sparse Reward1.1 Reward Shaping1.2 Curriculum Learning1.3 Hierarchical RL2. Imitation Learning2.1 Behavior Cloning2.2 Inverse Reinforcement Learning3. 参考1. Sparse RewardSparse Reward是强化原创 2020-11-05 13:13:07 · 925 阅读 · 0 评论 -
【深度强化学习】6. Q-Learning技巧及其改进方案
【DataWhale打卡】第四次任务,主要是重新学习一下李宏毅的Q-learning部分的知识,推导很多。之前看的时候就是简单过了一遍,很多细节没有清楚。这篇笔记包括了李宏毅深度强化学习三个视频长度的内容。文章目录1. 概念/解释2. Value Function3. State-Action Value Function4. TIP: Target Network5. TIP: Exploration6. TIP: Experience Replay7. DQN7.1. Double DQN7.2 D原创 2020-11-02 08:48:05 · 2348 阅读 · 0 评论 -
【深度强化学习】5. Proximal Policy Optimization
【DataWhale导读】李宏毅老师的深度强化学习之PPO(近端策略优化)部分内容。文章目录1. 概念/关键词2. from on-policy to off-policy3. PPO/TRPO3.1 PPO-Penalty3.2 PPO-Clip4. 参考1. 概念/关键词名称解释On-Policy学习的agent和与环境互动的agent是同一个(自己打王者)Off-Policy学习的agent和与环境互动的agent不是同一个(学习主播打王者)Aθ(st,at)原创 2020-10-31 08:19:59 · 464 阅读 · 0 评论 -
【深度强化学习】4. Policy Gradient
【Datawhale打卡】十一的时候自己看过一遍,李宏毅老师讲的很好,对数学小白也很友好,但是由于没有做笔记(敲代码),看完以后脑袋里空落落的。趁着这次打卡活动,重新看一遍,果然好多细节需要重头梳理一遍。文章目录1. 新概念/符号2. 三个组成部分3. Gradient Ascent4. 实现/实做4.1 TIP1 Add a Baseline4.2 TIP2 Assign Suitable Credit5. MC & TD5.1 MC-REINFORCE5.2 TD-Actor Critic6.原创 2020-10-29 22:54:13 · 508 阅读 · 0 评论 -
【深度强化学习】3. 表格型方法
【DataWhale打卡】百度的强化学习课程,通俗易懂,主要讲了Q-Learning,例子很多,生动形象。1. Q-table概念Q-table类似生活手册,在遇到一种特定的状态,会提供不同的动作,并且可以知道对应的价值。Q(S,A)Q(S,A)Q(S,A)我们可以为每一个状态(state)上进行的每一个动作(action)计算出最大的未来奖励(reward)的期望。2. SARSA[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aHbnixuN-1603639原创 2020-10-25 23:30:50 · 602 阅读 · 0 评论 -
【深度强化学习】2. 马尔科夫决策过程
【DataWhale打卡】周博磊博士-第二节马尔科夫决策过程,主要内容:马尔科夫链、马尔科夫奖励过程、马尔科夫决策过程Policy evaluation in MDPControl in MDP: policy iteration & value iteration这部分主要讲的除了MDP问题本身,主要是动态规划方面的求解方法。文章目录一、引入二、Markov Process(MP)Markov PropertyMarkov Chain三、Markov Reward Process(M原创 2020-10-23 21:07:47 · 829 阅读 · 0 评论 -
【深度强化学习】1. 基础部分
【DataWhale打卡】第一天:学习周博磊讲的强化学习结合《深入理解AutoML和AutoDL》这本书中的强化学习的章节总结了基础部分。参考资料:https://github.com/zhoubolei/introRL先导课程:线性代数、概率论、机器学习/数据挖掘/深度学习/模式识别编程基础:Python, PyTorch强化学习在做什么?强化学习和监督学习有很大的区别:监督学习需要提供数据和对应的标签,训练数据和测试数据是独立同分布的,从而进行模式和特征的学习。强化学习不同,强化学原创 2020-10-19 21:12:40 · 1339 阅读 · 1 评论