pytorch-- parms变nan

最新推荐文章于 2023-01-15 01:16:50 发布

祝小梦

最新推荐文章于 2023-01-15 01:16:50 发布

阅读量1.6k

点赞数

本文链接：https://blog.csdn.net/weixin_43143419/article/details/100079738

版权

一、可能出现的原因

1.可能是因为还有脏数据
通过设置batch_size = 1，shuffle = False，一步一步地将sample定位到了所有可能的脏数据，删掉。期间，删了好几个还依然会loss断崖为nan，不甘心，一直定位一直删。终于tm work out!
2. 说明训练不收敛了, 学习率太大，步子迈的太大导致梯度爆炸等都是有可能的，另外也有可能是网络的问题，网络结构设计的有问题。
采用方式是：
(1)弱化场景，将你的样本简化，各个学习率等参数采用典型配置，比如10万样本都是同一张复制的，让这个网络去拟合，如果有问题，则是网络的问题。否则则是各个参数的问题。
(2)如果是网络的问题，则通过不断加大样本的复杂度和调整网络（调整拟合能力）来改变。
(3) 参数的微调，我个人感觉是在网络的拟合能力和样本的复杂度匹配的情况下，就是可以train到一定水平，然后想进行进一步优化的时候采用。
(4) 参数的微调，楼上说得几个也算是一种思路吧，其他的靠自己去积累，另外将weights可视化也是一个细调起来可以用的方法，现在digits tf里面都有相关的工具.
二、结果
结果在我的网络里是因为：
tag里面为什么有时候会出现相同的值，因为是随机取的数，batch1里很可能会出现相同的tag,batch_size=2的时候会出现tag=[25,25]
这样batch2里就是完全相同的数据
三、梯度变nan就是梯度爆炸了
说明在梯度回传的某一个步骤中分母出现零。

祝小梦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pytorch-- parms变nan

一、可能出现的原因1.可能是因为还有脏数据通过设置batch_size = 1，shuffle = False，一步一步地将sample定位到了所有可能的脏数据，删掉。期间，删了好几个还依然会loss断崖为nan，不甘心，一直定位一直删。终于tm work out!2. 说明训练不收敛了, 学习率太大，步子迈的太大导致梯度爆炸等都是有可能的，另外也有可能是网络的问题，网络结构设计的有问题。...
复制链接

扫一扫