网络训练

最新推荐文章于 2024-06-23 16:51:28 发布

白白的雷

最新推荐文章于 2024-06-23 16:51:28 发布

阅读量196

点赞数

分类专栏： pytorch 数据集图像处理文章标签： pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40316360/article/details/104989618

版权

pytorch 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

数据集图像处理

4 篇文章 0 订阅

订阅专栏

最近在训练自己的模型时遇到了一个问题：train_loss:nan，于是我就百度了下。发现导致此问题的原因有这几种：学习率过大，网络问题，损失函数的问题，batch_size过大等，本质上来说就是梯度爆炸导致的训练损失过大等等。然后我就把经典的unet模型代替我的模型，发现可以得到正常的训练损失，因此我判定问题出在我的网络模型上。于是我就把两个模型之间作比较，发现我的模型少了BN和relu操作，于是我在每一层相应的位置上加上这两个操作，但是train_loss依然为nan,而且预测图准确率很低，跟原本数据集感觉没什么差距！看着这一个一个的nan,我是真的难了。就这样我浪费了一个下午的时间也没解决问题。第二天的时候我又继续百度，搜到的答案也跟前一天的如出一辙，后来我再从原始unet模型上找找差别，发现最后一层有惊喜，原来我没在自己的网络最后一层加上sigmoid函数处理，怪不得loss一直都是nan.最后加上后loss终于不再是nan了。
中间还遇到的一个问题就是BN操作，我发现在BN函数中，track_running_stats=False会比其为True的分割效果好很多，具体是为什么我也不太清楚！
最终问题能解决还是很开心的，继续加油！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网络训练

最近在训练自己的模型时遇到了一个问题：train_loss:nan，于是我就百度了下。发现导致此问题的原因有这几种：学习率过大，网络问题，损失函数的问题，batch_size过大等，本质上来说就是梯度爆炸导致的训练损失过大等等。然后我就把经典的unet模型代替我的模型，发现可以得到正常的训练损失，因此我判定问题出在我的网络模型上。于是我就把两个模型之间作比较，发现我的模型少了BN和relu操作，于...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。