from TD3 to SAC

最新推荐文章于 2024-08-21 20:59:34 发布

Enoch Liu98

最新推荐文章于 2024-08-21 20:59:34 发布

阅读量941

点赞数 1

分类专栏： RL 文章标签：机器学习算法深度学习人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41061258/article/details/115375595

版权

RL 专栏收录该内容

18 篇文章 13 订阅

订阅专栏

TD3

DDPG常常会遇到Q值overestimate的问题，这将会导致Critic部分给出错误的评判，导致Actor部分错误利用了这部分知识进行学习。TD3则是为了解决这个问题。

技巧一:快速双q学习。TD3学习两个q函数而不是一个q函数(即twin)，并使用两个q值中较小的一个作为Bellman误差损失函数中的目标。
技巧二:延迟的政策更新。TD3更新策略(和目标网络)的频率低于q函数。本文建议每两个q函数更新一次策略更新。这样可以有效避免policy带来的偏差问题。
技巧三:目标政策平滑。TD3为目标动作添加了噪声，使得策略更难利用Q函数误差，因为Q在动作中的变化是平滑的。

要点

最特别的一点就是要学习两个Q函数

两个q函数都使用一个单一的目标，使用两个q函数中的任何一个给出一个较小的目标值进行计算

在这里插入图片描述

对目标使用较小的q值，并向较小的q值回归，有助于防止q函数中的高估。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SjuzHSFp-1617262314466)(C:\Users\liuyi\AppData\Roaming\Typora\typora-user-images\image-20210331195639208.png)]$

SAC

SAC是一种将随机策略优化方法和DDPG算法（确定性策略）相结合的算法。它虽然也使用了双裁剪的Q学习方法，但是它并不能严格算成TD3的改进版本。它的一个重要特点就是加入了熵的方法。

Entropy-Regularized Reinforcement Learning

该方法在传统RL方法的基础上，加入了熵的思想。普通方法在执行完一个决策之后，都会获得一个即时reward，而该方法除了即时reward外，还加入了一个基于熵的reward。

在这里插入图片描述

SAC

Q学习

与TD3方法的相同与不同

相同点：

和TD3一样，两个q函数都是通过MSBE最小化来学习的，通过回归到一个单一的共享目标
与TD3一样，共享目标是使用目标Q-network计算的，目标Q-network是通过polyak对训练过程中的Q-network参数进行平均得到的。
与TD3中一样，共享目标使用剪切的双q技巧。

不同点

与TD3不同，该目标还包括一项，该项来自SAC对熵正则化的使用
与TD3不同，目标中使用的下一状态操作来自当前策略，而不是目标策略。
与TD3不同，没有明确的目标政策平滑。TD3训练了一个确定性策略，因此它通过向下一状态动作添加随机噪声来实现平滑。SAC训练了一个随机策略，因此来自该随机性的噪声足以获得类似的效果。

SAC利用这种对目标的样本近似，为每个q函数设置MSBE损耗。这里唯一尚未确定的是，用哪个Q函数来计算样本备份:像TD3一样，SAC使用剪切双Q技巧，并在两个Q近似器之间取最小Q值。但这里需要注意的是，计算目标值的时候的那个动作产生，是由本身策略产生的，而不是由目标策略产生的。
在这里插入图片描述

疑问：

为什么这里就不需要设置目标的策略参数了呢？

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。