解读DDPG算法结构

最新推荐文章于 2024-08-06 17:34:44 发布

马飞飞

最新推荐文章于 2024-08-06 17:34:44 发布

阅读量1.5w

点赞数 6

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/maqunfi/article/details/90897446

版权

算法流程

1.主要的架构可以分解成以下几部分进行理解：

*首先DDPG的特点是actor虽然是PG的架构，但是actor输出的动作值并不是一个概率分布，而是一个确定性的连续动作选择（可以适用连续动作情况），其网络就是给予状态作为输入，然后网络会给予一个动作作为输出，表示在这个状态情况下，最该采取的动作值，然后对其这个online网络的更新是根据critic网络提供更新依据，也就是下面的式子，会利用到这个s和a得到critic评价出的Q值，然后进行梯度的改变从而告诉网络下次进行选择时该选择怎么采取动作值。【也就是其优化训练online网络时，需要根据critic提供的对这一动作的Q值评估来进行梯度调整】Q是critic提取的，Q值的梯度其实也是critic网络计算提供的。

在actor网络的 target网络部分则完全是一段时间的软更新的情况，也就是过一段时间就进行参数的保存（这个target网络的主要作用就是用于 critic网络的target现实部分进行下一行为的选取,也就是会根据这里现实网络的情况来进行行为的选取）其实这里也有个疑问，actor网络的输入是状态，输出是唯一的动作，那么critic网络呢，是输入状态和行为、输出Q值吗？还是说输入状态，输入多个行为的Q值，然后从中再选取？是两种方式中的那个呢.....【经过搜索发现，这里critic网络应该是第一种形式&#

最低0.47元/天解锁文章

关注

6
点赞
踩
71

收藏

觉得还不错? 一键收藏
0
评论
解读DDPG算法结构

算法流程1.主要的架构可以分解成以下几部分进行理解： *首先DDPG的特点是actor虽然是PG的架构，但是actor输出的动作值并不是一个概率分布，而是一个确定性的连续动作选择（可以适用连续动作情况），其网络就是给予状态作为输入，然后网络会给予一个动作作为输出，表示在这个状态情况下，最该采取的动作值，然后对其这个online网络的更新是根据critic网络提供更新依据，也就...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。