DDPG，CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING 论文阅读

最新推荐文章于 2022-08-02 22:01:39 发布

空苍地樱

最新推荐文章于 2022-08-02 22:01:39 发布

阅读量597

点赞数

分类专栏：强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/KongCDY/article/details/102508762

版权

强化学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

DDPG算法是训练一个deterministic policy来处理动作连续的问题，主要是基于DQN的思想，训练一个Q-functon来衡量动作的Q值。一般的DQN方法得到下面这个Q的最优值是很容易的，因为动作是离散的，取对应Q值最大的动作即可。但是在连续动作上就不太好处理了。

原始的Q-Learning的贝尔曼方程是：

贝尔曼方程可以用来学习最优的Q函数，目标函数为：

因为连续动作没法像离散动作那样直接得到Q的最大值，所以训练一个actor $a=\mu \left ( s\mid \theta ^{\mu } \right )$ ，让这个actor输出的动作使Q最大。目标函数就变成了：

其中 $y_{t}$ 如下：

更新时先更新Q网络，再固定Q网络更新actor网络。

还有几个tricks：

训练跟DQN一样，使用经验池，一次取一个batch，off-line进行训练。经验池要大一些，可以使得取到的数据不相关。
使用target network，Q网络跟actor都要用，将 $y_{t}$ 变成
target network的更新是“soft”的， ${\theta }'=\tau \theta +\left ( 1-\tau \right ){\theta }',\tau \ll 1$ ，让target network的更新变慢，提高学习的稳定性。
通过在动作上加噪声的方法进行动作的探索， ${\mu }'\left ( s_{t} \right )=\mu\left ( s_{t} \mid \theta _{t}^{\mu }\right)+N$ ，是随机噪声。

总体算法流程：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。