TD3学习算法，reward到后期开始减小

yuer_41555

已于 2024-07-07 15:42:23 修改

阅读量2.7k

点赞数 2

文章标签：深度学习 python

于 2022-11-15 18:58:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41550143/article/details/127866828

版权

最近用TD3做一个仿真，不论我怎么修改参数，总是前期奖励比较正常地在增大，到后面奖励就开始下降（这张图是迭代次数比较少的情况，不算特别明显，有时候一直迭代到>1000次，奖励都是下降的趋势）
在这里插入图片描述

我参考了一些建议，有博主分析可能是学习率太大或者奖励设置不合理，我后面修改过学习率和奖励，但没什么变化，最后是想起TD3有引入噪声，我之前那版没有噪声是没有衰减的，加入噪声衰减然后得到了下面的效果，基本达到了我需要的收敛效果，当然这个图里面收敛比较快，因为输入数据不一样，有时候收敛也比较慢
在这里插入图片描述

总结：
当然，我觉得噪声衰减这个方法可能有一定的前提，首先我的学习率是设置了衰减，奖励也是在我反复调整很多次之后得到的，所以总体效果还可以，如果其他参数还很有问题的情况下，不一定会有这个效果。

我也只是新手，至于用在其他模型上的效果怎么样我不太好说，但可以作为一个尝试的手段；
另外就是，我引用的他人的代码，对于网络结构和初始化参数基本没修改，但跑出来效果还行，然后针对具体问题微调，最重要的可能还是你自己的模型是否合理，比如我有好几次遇到瓶颈都是因为我将自己的模型环境套进去时，有几处小错误，而不是学习算法本身的参数问题

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。