学习强化学习
文章平均质量分 91
钻研学习的深度。
CHH3213
主要研究自动驾驶决策规划控制。
每天都要保持健康的状态,提升专业能力,谨慎投资!
展开
-
【学习强化学习】总目录
强化学习知识点目录原创 2022-06-26 10:40:09 · 885 阅读 · 7 评论 -
【OpenAI】MADDPG算法与Multiagent-Envs环境项目总结
许久之前做的一个项目。在maddpg和openai给的环境的基础上进行修改,使用多智能体强化学习完成追逃博弈,并与传统方法进行对比。下面记录下修改的地方。原创 2022-10-31 19:41:13 · 4258 阅读 · 20 评论 -
深度强化学习应用实践技巧
- 在深度强化学习中,由于强化学习的基本过程需要智能体从与环境交互的动态过程中的奖励信号而不是标签中学习,这是与有监督学习的情况不同的。- 强化学习中的奖励函数可能只包含不完整或者局部的信息,而智能体使用自举( Bootstrapping)学习方法时往往在追逐一个变化的目标。- 此外,深度强化学习中经常用到不止一个深度神经网络,尤其是在那些较为高等或者最近提出的方法中。这都使得深度强化学习算法可能表现得不稳定且对超参数敏感。- 强化学习可以用于连续决策制定问题,而这类问题通常可以用马尔可夫( Ma原创 2022-07-26 22:33:50 · 944 阅读 · 0 评论 -
【学习强化学习】十一、Soft Actor-Critic
Soft Actor-Critic (SAC)是面向Maximum Entropy Reinforcement learning 开发的一种off policy算法,和DDPG相比,Soft Actor-Critic使用的是随机策略stochastic policy,相比确定性策略具有一定的优势。Soft Actor-Critic兼具稳定性高和样本利用率高的优点。......原创 2022-07-08 16:11:21 · 3244 阅读 · 0 评论 -
【深度强化学习面试全面汇总[持续更新]
最近浏览的人已编辑声明:本文内容整理自参考文献和其他一些总结,分享仅供学习交流使用。蒙特卡洛、TD、动态规划的关系?DQN的几个变种以及各自解决了那些问题?深度强化学习中的DQN和A3C区别与联系?策略梯度的推导过程?策略梯度和actor-critic的关系与对比?A3C和DDPG区别和共同点?value-based和policy-based关系?off-policy和on-policy的好与坏?表格式到函数近似的理解?Actor-Critic的优点?Actor和Critic两者转载 2022-05-02 13:48:07 · 735 阅读 · 0 评论 -
Model based RL概述
文章目录参考资料1. Model based vs Model free1. Model-based2. Model-free3. 经验的其他用途参考资料https://zhuanlan.zhihu.com/p/1021973481. Model based vs Model free1. Model-based强化学习中所说的model-based并不是已知环境模型,或者已知状态转移概率。而是要从经验中学习到一个环境模型或者其他映射,并利用这个learned model 加速策略选代的进程。m原创 2022-04-22 11:01:36 · 3387 阅读 · 0 评论 -
offline RL介绍
文章目录参考资料1. offline RL概念2. Offline RL 中的困难3. 基于重要性采样的 Offline RL 与离线策略评估参考资料Offline Reinforcement Learning Review本篇博客为《Offline Reinforcement Learning Review》摘抄,指摘抄了自己感兴趣的。如想深入了解可直接点击上方参考资料链接。1. offline RL概念Offline RL 舍弃了和环境的交互,让 agent 在一个固定的数据集(bat原创 2022-04-02 21:05:02 · 1860 阅读 · 0 评论 -
神经网络理解:前向传播与反向传播
文章目录参考资料神经网络前向传播**输入层->隐含层****隐含层->输出层**反向传播1. **计算总误差**2. **隐含层与输出层之间的权重更新**3. 输入层与隐层之间的权重更新4. 梯度下降参考资料神经网络基础: 反向传播推导与卷积公式神经网络前向传播与反向传播神经网络神经网络通俗地可以理解成一个函数近似器,它需要近似一个输入x到输出y的映射函数。我们所要训练的网络参数其实就是在拟合这个映射函数的未知量。神经网络的训练可以分为两个步骤:一个是前向传播,另一个是反向传播。前原创 2022-04-02 11:50:28 · 8480 阅读 · 1 评论 -
【学习强化学习】十三、模仿学习介绍
文章目录参考资料1. 模仿学习概述2. 行为克隆2.1 行为克隆缺点缺点1:观测非常有限缺点2:机器会完全模仿专家的行为缺点3:训练数据跟测试数据不匹配2. 逆强化学习2.1 概述2.2 奖励函数2.2 IRL vs GAN3. 第三人称视角模仿学习4. 练习4.1 keywords参考资料https://datawhalechina.github.io/easy-rl/#/chapter11/chapter111. 模仿学习概述模仿学习(imitation learning,IL)又叫做示范学习(原创 2022-03-12 14:32:26 · 4252 阅读 · 4 评论 -
【 学习强化学习】十二、针对稀疏奖励的改进
文章目录参考资料前言1. Reward Shaping1.1 Curiosity1. ICM(intrinsic curiosity module)2. ICM设计2. Curriculum Learning2.1 Reverse Curriculum Generation3. Hierarchical RL参考资料https://datawhalechina.github.io/easy-rl/#/chapter10/chapter10Reward Shaping Invariance前言如原创 2022-03-07 18:02:17 · 1261 阅读 · 0 评论 -
【学习强化学习】十、DDPG、TD3算法原理及实现
文章目录参考资料1. 离散动作 vs. 连续动作1.1 随机性策略 vs 确定性策略2. DDPG2.1 介绍2.2 DDPG : DQN 的扩展。2.3 Exploration vs. Exploitation3. Twin Delayed DDPG(TD3)3.1 TD3的技巧3.2 Exploration vs. Exploitation4. 练习4.1 简答4.2 编程题参考资料https://datawhalechina.github.io/easy-rl/#/chapter12/chapte原创 2022-03-09 14:35:32 · 7646 阅读 · 9 评论 -
【学习强化学习】九、Actor-Critic算法原理及实现
文章目录参考资料1. Actor-Critic框架原理1.1 基本介绍1.2 原理分析1.3 Advantage Actor-Critic1. A2C引入2. A2C流程3. tips2. A3C2.1 A3C理解2.2 A3C运作机理2.3 算法大纲3. Pathwise Derivative Policy Gradient3.1 算法流程3.2算法相对于DQN的改变4. 练习1. A3C在训练时有很多的worker进行异步的工作。那么其具体的如何运作的呢?2. A3C是on-policy还是off-po原创 2022-03-06 17:54:46 · 6265 阅读 · 0 评论 -
【学习强化学习】八、连续动作下的DQN设计
文章目录参考资料思路1思路2思路34. 练习1. Q-learning相比于policy gradient based方法为什么训练起来效果更好,更平稳?参考资料https://datawhalechina.github.io/easy-rl/#/chapter8/chapter8思路1a=argmaxaQ(s,a)a=\arg \max _{a} Q(s, a) a=argamaxQ(s,a)假设a是离散的,即a的可能性都是有限的。我们可以把每一个可能的动作都带到 Q 里面算它的 Q原创 2022-03-05 17:31:41 · 1163 阅读 · 0 评论 -
【学习强化学习】七、DQN算法的改进
文章目录参考资料1. Double DQN1.1 怎么解决Q值高估的问题?2. Dueling DQN2.1 Dueling DQN 如何更改了网络的架构?2.2 更改网络架构的好处2.2.1 网络可能学到 V 永远都是 0的情况处理3. Prioritized Experience Replay4. Balance between MC and TD5. Noisy Net5.1 Noisy Net 跟 Epsilon Greedy 等方法的本质上的差异。6. Distributional Q-funct原创 2022-03-02 10:41:18 · 2038 阅读 · 2 评论 -
【学习强化学习】六、DQN算法原理及实现
文章目录参考资料前言1. State Value Function1.1 State Value Function Estimation参考资料https://datawhalechina.github.io/easy-rl/#/chapter6/chapter6前言传统的强化学习算法会使用表格的形式存储状态值函数 V(s)V(s)V(s) 或状态动作值函数 Q(s,a)Q(s,a)Q(s,a),但是这样的方法存在很大的局限性。例如:现实中的强化学习任务所面临的状态空间往往是连续的,存在无穷多个原创 2022-02-27 17:08:00 · 3732 阅读 · 1 评论 -
【学习强化学习】五、PPO算法原理及实现
文章目录参考资料1. From On-policy to Off-policy1.1 on policy and off policy 回顾1.2 PPO引入参考资料https://datawhalechina.github.io/easy-rl/#/chapter5/chapter51. From On-policy to Off-policy1.1 on policy and off policy 回顾在讲 PPO 之前,我们先回顾下 on-policy 和 off-policy 这两种训原创 2022-02-25 21:10:00 · 4856 阅读 · 0 评论 -
【学习强化学习】四、策略梯度方法及实现
文章目录参考资料1. Policy Gradient1.1 Policy of Actor1.2 Actor, Environment, Reward1.2.1 Actor, Environment1.2.2 reward1.3 梯度上升(gradient ascent)1.4 梯度上升实现细节2. 策略梯度tips2.1 添加基线2.2 Assign Suitable Credit2.3 优势函数3. REINFORCE: Monte Carlo Policy Gradient3.1 蒙特卡洛与时序差分3原创 2022-02-24 17:56:40 · 3520 阅读 · 0 评论 -
【学习强化学习】三、Q learning和Sarsa算法
文章目录参考资料1. Q- table2. Model-free Prediction2.1 Monte-Carlo Policy Evaluation2.1.1 MC算法步骤2.1.2 incremental MC updates2.1.3 Difference between DP and MC for policy evaluation2.1.4 Advantages of MC over DP2.2 Temporal Difference2.2.1 TD 方法介绍2.2.2 Advantages o原创 2022-02-24 15:13:19 · 1408 阅读 · 0 评论 -
【学习强化学习】二、MDP过程
文章目录参考资料前言1. Markov Process(MP)1.1 Markov Property1.2 Markov Process/Markov Chain1.3 Example of MP2. Markov Reward Process(MRP)2.1 Example of MRP2.2 Return and Value function2.3 Why Discount Factor2.3.1 示例2.4 Bellman Equation参考资料EasyRL 书本前言在介绍马尔可夫决策过程原创 2022-02-22 21:27:22 · 1867 阅读 · 0 评论 -
【学习强化学习】一、强化学习概述
文章目录参考资料https://datawhalechina.github.io/easy-rl/#/chapter1/chapter11. 基本介绍2. 强化学习与监督学习的区别2.1 监督学习2.2 强化学习2.3 监督学习 VS 强化学习2.4 强化学习特征2.4.1 深度强化学习3. 强化学习专有名词概念3.1 Reward3.2 Sequential Decision Making3.3 Action Space3.4 Policy3.5 Value Function3.6 Model4. Typ原创 2022-02-21 21:42:07 · 5854 阅读 · 0 评论 -
gym中的discrete类、box类和multidiscrete类
gym中的discrete类、box类和multidiscrete类参考资料:深度解析OPENAI-MADDPG解读gym中的action_space和observation_space openai /multiagent-particle-envs 1.discrete类Discrete类对应于一维离散空间要定义一个Discrete类的空间只需要一个参数n就可以了discrete space允许固定范围的非负数2.box类box类对应于多维连续空间Box空间可以定义多维空原创 2020-11-20 11:41:26 · 8218 阅读 · 0 评论 -
MADDPG环境搭建
github上openAI已经给出了maddpg的环境配置https://github.com/openai/maddpg以及https://github.com/openai/multiagent-particle-envs,这边进行总结一番。1.环境配置 首先确保gym的版本为0.10.5,tensorflow是1.x版本,我的tensorflow是1.14.0,可以运行成功。打开终端,将路径cd到multiagent-particle-envs文件夹下(即含有setup.py文件的文件原创 2020-11-16 14:48:13 · 3789 阅读 · 22 评论