RL（十四）深度确定性策略梯度算法

最新推荐文章于 2024-08-07 06:30:00 发布

偏执狂_tao

最新推荐文章于 2024-08-07 06:30:00 发布

阅读量1.8k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42022175/article/details/100087152

版权

前面我们讲了深度强化学习，虽然强化学习和深度学习得到了一个很好的结合，但是他们在实际的使用中还是有一些限制的，比如算法模型容易过估计、无法处理连续动作控制任务。尤其是无法使用连续动作这个缺点，极大的限制了DQN的使用。所以本节就来学习可以处理连续动作的深度确定性策略梯度算法（DDPG）。

1、背景介绍

在2014年首次提出了确定性策略梯度算法，并证明了该算法对连续动作任务的有效性。该算法在策略梯度算法的基础上，算法模拟的输入为状态空间，输出不再是每个动作的概率，而是该状态空间对应的具体动作。
接着，TP Lillicrap等利用DPG算法能够解决高维连续动作空间的优点，同时结合DQN算法能够把高维的状态空间作为输入的优点，提出基于演员-评论家框架的DDPG算法。

下面按着策略梯度、确定性策略梯度、深度确定性策略梯度来依次讲解。

1.1确定性策略梯度（DPG）

前面我们讲过策略梯度，所以这里直接从确定性策略梯度开始学习。
策略梯度算法的最大缺点就是策略评估通常效率比较低下：通过策略梯度算法学习得到的随机策略后，每一个时间步个体需要根据该最优策略梯度概率分布函数进行动作采样，从而获得具体的动作值，而针对每一时间步个体对高维的动作空间进行采样将会耗费大量的计算资源。

之前一直以为确定性的策略梯度算法是不存在的，直到后来D.Silver通过严密的数学推导证明确定性策略梯度算法是存在的。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。