深度强化学习输出值总是不变？

最新推荐文章于 2024-03-29 11:42:32 发布

七层孤独之后

最新推荐文章于 2024-03-29 11:42:32 发布

阅读量5.7k

点赞数 12

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44811719/article/details/115764660

版权

深度强化学习输出值总是不怎么变？

可能原因：

1.输入张量太小，导致网络梯度更新太慢，梯度消失；
2.奖励太小，梯度小，更新慢；
3.奖励太大，relu激活函数遇到大梯度会部分“失活”；

深度强化学习调试经验

1.设置专家经验，先进行模仿学习；
2.探索必须要全面，不然智能体止步不前；
3.探索范围也不要太大，不然垃圾经验太多导致智能体逐渐失去正确方向，经验池可以设定大一些，为开始训练经验大小的10 ~ 100倍即可。
5.要注意：深度强化学习也会陷入局部最优解，比如高维空间下的Q值可能有多个局部最优。
6.输入量必须归一化，Actor网络输出值也要归一化再送入Critic网络，比如Actor网络输出-1 ~ 1，送入Critic之前也是-1 ~ 1最好和Actor网络输出范围一致，对与环境的交互而言可以再做变换。
7.深度强化学习中的模仿学习：主要有行为克隆和逆向强化学习；行为克隆：专家经验做监督学习，也可以把专家经验放入经验池中进行学习，逆向强化学习：需要自学习奖励函数，专家和智能体同时做出动作，找到一种奖励函数（可以和环境相关，比如“学徒学习”：R(s) = w.T * S(t) ），奖励函数必须保证专家奖励大于智能体奖励，最终通过每次迭代，
每次迭代时都使用当前的奖励函数进行强化学习，多次迭代后智能体会接近专家水平。

补充知识:

1.在深度学习中，没有绝对好的的优化器，只是对于大多数情况自适应优化器会好一些；
2.在深度学习中，引起局部最优的原因中鞍点要比局部最小点多得多，平坦区域大，而且难以克服，特别是对SGD而言；

七层孤独之后

关注

12
点赞
踩
27

收藏

觉得还不错? 一键收藏
10
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

七层孤独之后 CSDN认证博客专家 CSDN认证企业博客

码龄6年

8: 原创

118万+: 周排名

14万+: 总排名

2万+: 访问

: 等级

248: 积分

29: 粉丝

75: 获赞

21: 评论

144: 收藏

私信

关注

热门文章

最新评论

VS C++调用python、opencv + 深度学习实例
gx15163153206: 你好博主，能不能发我一份c++调用yolov5的源码啊。谢谢
VS C++调用python、opencv + 深度学习实例
gx15163153206: 你好博主，能不能发我一份c++调用yolov5的源码啊。谢谢
VS C++调用python、opencv + 深度学习实例
瑭瑭大王: 你好博主请问四、c++调用python运行结果和五、5.测试代码这俩要在哪里运行呢怎么测试
mmsegmentation结合Grad-CAM、XGradCAM、AblationCAM等实现深度网络指定层注意力图可视化
这么高级的知识留在脑子里了吗: 我解决了，整个过程都没有问题，是因为我忽略输入图片尺寸问题，排除掉了，感谢博主！！
mmsegmentation结合Grad-CAM、XGradCAM、AblationCAM等实现深度网络指定层注意力图可视化
这么高级的知识留在脑子里了吗: 博主你好，我参照pytorch-grad-cam tutorials在swin transformer的代码上调整，他们似乎是提供了分类的swin transformer的可视化注意事项，对于 Swin Transformer 的可视化过程，他们将 activations 和 gradients 进行重塑，我理解这是因为 Swin Transformer 的特性是把图像划分为多个小窗口，然后在每个窗口上进行自注意力机制，所以，在进行注意力层的可视化时，需要将这些小窗口还原成原始图像的空间位置，但是我结合你的代码还没能在语义分割中可视化swin transformer的注意力，能帮我看看这是为什么吗？ GradCAM(model=model, target_layers=target_layers, reshape_transform=reshape_transform) def reshape_transform(tensor, height=7, width=7): result = tensor.reshape(tensor.size(0), height, width, tensor.size(2)) # Bring the channels to the first dimension, # like in CNNs. result = result.transpose(2, 3).transpose(1, 2) return result

最新文章

目录

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。