![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度强化学习
文章平均质量分 70
DRL各算法的解读及应用
EdenGabriel
no why,just do.
展开
-
4.深度强化学习------PPG(Phasic Policy Gradient)算法资料+原理整理
文章地址:PPG:Phasic Policy Gradient一. PPG资料PPG相关BLOG①PPG相关Demo(PyTorch版)二. PPG原理简述2.1 背景PPG是一种相对于PPO来说,提升sample efficiency的算法。 传统on-policy actor-critic方法,可通过共享网络或单独的网络来分别表示policy和value function:用单独的网络分别表示policy和value function的好处是可以避免训练目标之间的干扰;用共享网络的方原创 2022-03-15 16:37:10 · 3821 阅读 · 0 评论 -
3.深度强化学习------PPO(Proximal Policy Optimization)算法资料+原理整理
文章地址:PPO: Proximal Policy Optimization Algorithms一. PPO资料PPO原理讲解BLOG①:这篇blog详细讲了PPO算法的产生过程及原理,包含部分理论推导,看完这篇blog基本就理解PPO了。PPO原理讲解BLOG②:可参考,其中包含部分tensorflow实现代码。二. PPO原理简述2.1 背景PPO是基于基本的Policy Gradient进行改进的算法,关于PG的更新过程这里不详细描述了,可以根据上述BLOG①或其他资料或下面的图片推导原创 2022-03-14 14:39:00 · 11557 阅读 · 0 评论 -
2.深度强化学习------SAC(Soft Actor-Critic)算法资料+原理整理
SAC是深度强化学习中对于连续动作控制的又一经典。近期简单的看了一下SAC算法的思想,目前尚未深入研究,先把当前的资料整理一波,便于进一步学习。后续再作进一步更新1. SAC原理介绍可重点看前三篇SAC原理讲解BLOG①:这篇blog非常详细的讲解了SAC的实现过程,包括理论推导过程,看懂这篇blog基本就差不多明白SAC了。SAC原理讲解BLOG②:这篇blog对于SAC的算法思...原创 2020-03-19 16:52:52 · 38572 阅读 · 9 评论 -
1.深度强化学习------DDPG算法资料整理
DDPG原理讲解BLOG①:这篇blog简明的讲出了DDPG的构成,并且解释了Actor和Critic的loss。DDPG原理讲解BLOG②:这篇blog的讲解也比较细致,不过笔者更喜欢blog中的一些网络流程图,故此收藏。https://www.jianshu.com/p/f141cf8add27https://blog.csdn.net/hehedadaq/article/details...原创 2020-03-18 18:42:03 · 2871 阅读 · 7 评论 -
①DRL algorithm trick ------ Ornstein–Uhlenbeck 随机过程
DDPG中提到了OU随机噪声,OU过程是一种序贯相关的过程,RL也是一种序贯相关模型,so 引入OU噪声也有一定道理。OU随机过程:原理讲解OU随机过程:代码复现将其推广到连续随机系统当中就是这个样子代码复现class OrnsteinUhlenbeckActionNoise: def __init__(self, mu, sigma=0.2, theta=0.15, dt=...原创 2020-03-18 17:47:35 · 1424 阅读 · 1 评论