JoyDL_chapter11_DDPG&TD3

最新推荐文章于 2024-08-22 07:51:42 发布

李萌胖的蜕变之路

最新推荐文章于 2024-08-22 07:51:42 发布

阅读量1.8k

点赞数 27

文章标签：人工智能 python 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42230458/article/details/135876227

版权

本文介绍了DDPG和TD3这两种基于策略梯度的强化学习算法，重点讨论了DDPG的off-policy特性，软更新与硬更新的区别，以及TD3如何通过双Q网络、延迟策略更新和噪声机制改进学习稳定性。Critic网络在TD3中的更新频率较Actor更快，以确保更精确的Q值估计。

摘要由CSDN通过智能技术生成

参考链接：https://datawhalechina.github.io/joyrl-book/#/ch11/main
一些非常经典的基于策略梯度的算法：DDPG 、TD3、PPO、SAC等算法，本文介绍DDPG、TD3，后者是在前者的基础上做了一些优化。DDPG是对DQN的一个连续动作空间版本扩展，因形似AC架构，故归为一种AC。

本章作业

1. DDPG是off-policy算法吗？为什么？

DDPG（Deep Deterministic Policy Gradient）是一种off-policy算法。
Off-policy算法的特点是在训练中可以使用先前收集的经验数据，而不仅仅依赖于当前策略产生的数据。DDPG满足这个条件的原因有以下几点：

1.经验回放（Experience Replay）： DDPG使用经验回放缓冲区，将智能体之前的经验存储在一个缓冲区中。在训练时，它可以从这个缓冲区中随机抽样，用于更新策略和值函数。这使得算法可以更有效地重用以前的经验，从而提高样本的利用效率，符合off-policy的特性。
2.目标网络（Target Networks）&

最低0.47元/天解锁文章

李萌胖的蜕变之路

关注

27
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
JoyDL_chapter11_DDPG&TD3

一些非常经典的基于策略梯度的算法：DDPG 、TD3、PPO、SAC等算法，本文介绍DDPG、TD3，后者是在前者的基础上做了一些优化。DDPG是对DQN的一个连续动作空间版本扩展，因形似AC架构，故归为一种AC。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。