[踩坑] 交叉熵损失不下降

骜蛟

已于 2022-03-23 09:47:58 修改

阅读量4.8k

点赞数 10

分类专栏： # PyTorch 文章标签： pytorch 深度学习

于 2022-03-23 09:43:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43538042/article/details/123677839

版权

PyTorch 专栏收录该内容

3 篇文章

订阅专栏

在使用Pytorch进行深度学习训练时，作者遇到了模型训练后期交叉熵损失（celoss）几乎不变，而dice loss轻微下降的情况。这通常是由于在网络输出前进行了两次softmax操作导致的。双重softmax使得损失几乎无法进一步下降，从而阻碍了模型的收敛。解决方案是删除一层softmax操作。通过调整模型结构，确保损失函数能够正常工作，可以促进模型的训练和性能提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在深度学习中，有时候会遇到各种奇奇怪怪的问题，这些问题也不容易在网上搜到解答。一些有报错的问题还好，没有报错的问题简直就是灾难。

在这里插入图片描述
在刚开始训练的时候，ce loss 是明显下降的，但训练了一段时间后，在以上图片中，可以看到dice loss有轻微下降，而ce loss几乎不动，模型还没有收敛，这时候肯定是出问题了。

问题在哪呢？

我用的是Pytorch中的CrossEntropyLoss()函数。注意这个函数是自带softmax操作的。

而我在传入网络输出前，又做了一次softmax。这样就做了两层的softmax。这就导致了交叉熵损失下降不下去，回传梯度几乎为0。

解决方法

删掉一层softmax。

博客等级

码龄7年

82
原创

131
点赞

341
收藏

206
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

打印机ERROR：unregistered
2501_90621005: 好厉害，按你说的打印机又能用了，祝愿博主发大财。
Vscode ssh Failed to parse remote port from server output
骜蛟: 最后总结下来发现是磁盘满导致的
Python logging模块用法
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh-cn/latest/articles/c1.html 使用原生 loggng封装，兼容性和替换性100%,只需要一行代码大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
C/C++ 全局变量在多个c文件中共用
骜蛟: 推荐看下cpp和c混合编译相关的内容，这方面我也没实战过。
C/C++ 全局变量在多个c文件中共用
看得见的东西不一定有用: 你好博主，有两个问题想询问一下：如果是在一个c++的.cpp文件中的变量可以给c的.c文件使用吗？还有一个是，如果我在.cpp文件中声明了一个全局变量，然后再该文件下的某个函数内给这个变量赋值，那么.c文件中怎么使用到这个已赋值的变量呢（.c文件中需要用到这个赋值并对其做其他处理）？感谢博主

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。