【PyTorch深度强化学习】TD3算法（双延迟-确定策略梯度算法）的讲解及实战（超详细附源码）

showswoller

已于 2022-11-27 21:27:18 修改

阅读量7.8k

点赞数 32

CC 4.0 BY-SA版权

分类专栏：深度强化学习文章标签：算法 pytorch python 学习

于 2022-11-27 21:21:47 首次发布

本文链接：https://blog.csdn.net/jiebaoshayebuhui/article/details/128069864

需要源码请点赞关注收藏后评论区留言~~~

一、双延迟-确定策略梯度算法

在DDPG算法基础上，TD3算法的主要目的在于解决AC框架中，由函数逼近引入的偏差和方差问题。一方面，由于方差会引起过高估计，为解决过高估计问题，TD3将截断式双Q学习（clipped Double Q-Learning）应用于AC框架；另一方面，高方差会引起误差累积，为解决误差累积问题，TD3分别采用延迟策略更新和添加噪声平滑目标策略两种技巧。

过高估计问题解决方案

从策略梯度方法已知，基于PG的强化学习存在过高估计问题，但由于DDPG评论家的目标值不是取最优动作值函数的，所以不存在最大化操作。此时，将Double DQN思想直接用于DDPG的评论家，构造如下目标函数：

y=r+γQ(s′,μ(s′,θ),w′)(bbb.11)(bbb.11)y=r+γQ(s′,μ(s′,θ),w′)

实际上，这样的处理效果并不好，这是因为在连续动作空间中，策略变化缓慢，行动者更新较为平缓，使得预测QQ值与目标QQ值相差不大，无法避免过高估计问题。

考虑将Double Q-Learning思想应用于DDPG，采用两个独立的评论家Qw1Qw1、Qw2Qw2和两个独立的行动者μθ1μθ1、μθ2μθ2，以50%的概率利用Q1Q1产生动作，然后更新Q2Q2估计值，而另外50%的概率正好相反。构建更新所需的两个目标值分别为：

{y1=r+γQ(s′,μ(s′,θ1),w′2)y2=r+γQ(s′,μ(s′,θ2),w′1)(bbb.12)(bbb.12){y1=r+γQ(s′,μ(s′,θ1),w2′)y2=r+γQ(s′,μ(s′,θ2),w1′)

但由于样本均来自于同一经验池，不能保证样本数据完全独立，所以两个行动者的样本具有一定相关性，在一定的情况下，甚至会加剧高估问题。针对此种情形，秉持“宁可低估，也不要高估”的想法，对Double Q-Learning进行修改，构建基于Clipped Double Q-learning方法的目标值：

y=r+γmini=1,2Q(s′,μ(s′,θ1),w′i)(bbb.13)(bbb.13)y=r+γmini=1,2Q(s′,μ(s′,θ1),wi′)

如式（bbb.13）所示，目标值只使用了一个行动者网络μθ1μθ1，取两个评论家网络Qw1Qw1和Qw2Qw2的最小值来作为值函数估计值。
在更新评论家网络Qw1Qw1和Qw2Qw2时，均采用式（bbb.13）目标值y，共用如下损失函数：

L(wi)=𝔼s,a,r,s′∼[y−Q(s,a,wi)]2(bbb.14)(bbb.14)L(wi)=Es,a,r,s′∼D[y−Q(s,a,wi)]2

该算法相比于原算法的区别仅在于多了一个和原评论家Qw1Qw1同步更新的辅助评论家Qw2Qw2，在更新目标值y时取最小值。不过这一修改仍然会让人疑惑，Qw1Qw1和Qw2Qw2只有初始参数不同，后面的更新都一样，这样形成的两个类似的评论家能否有效消除TD误差带来的偏置估计。

累积误差问题解决方案

在函数逼近问题中，TD(0)算法的过高估计问题会进一步加剧，每次更新都会产生一定量的TD误差δ(s,a)δ(s,a)：

Q(s,a,w)=r+γ𝔼[Q(s′,a′,w)]−δ(s,a)(bbb.15)(bbb.15)Q(s,a,w)=r+γE[Q(s′,a′,w)]−δ(s,a)

经过多次迭代更新后，误差会被累积：

Q(St,At,w)=Rt+1+γ𝔼[Q(St+1,At+1,w)]−δt+1=Rt+1+γ𝔼[Rt+2+γ𝔼[Q(St+2,At+2,w)]−δt+2]−δt+1⋯⋯=𝔼Si∼ρβ,Ai∼μ[∑T−1γi−t(Ri+1−δi+1)](bbb.16)(bbb.16)Q(St,At,w)=Rt+1+γE[Q(St+1,At+1,w)]−δt+1=Rt+1+γE[Rt+2+γE[Q(St+2,At+2,w)]−δt+2]−δt+1⋯⋯=ESi∼ρβ,Ai∼μ[∑T−1γi−t(Ri+1−δi+1)]

由此可见，估计的方差与未来奖励、未来TD误差的方差成正比。当折扣因子γγ较大时，每次更新都可以引起方差的快速提升，所以通常TD3设置较小的折扣系数γγ。

延迟的策略更新

TD3目标网络的更新方式与DDPG相同，都采用软更新，尽管软更新比硬更新更有利于算法的稳定性，但AC算法依然会失败，其原因通常在于行动者和评论家的更新是相互作用的结果：评论家提供的值函数估计值不准确，就会使行动者将策略往错误方向改进；行动者产生了较差的策略，就会进一步加剧评论家误差累积问题，两者不断作用产生恶性循环。
为解决以上问题，TD3考虑对策略进行延时更新，减少行动者的更新频率，尽可能等待评论家训练收敛后再进行更新操作。延时更新操作可以有效减少累积误差，从而降低方差；同时，也能减少不必要的重复更新操作，一定程度上提升效率。在实际应用时，TD3采取的操作是每隔评论家更新dd次后，再对行动者进行更新。