Train Loss不降、Valid Loss不降、Test Loss不降的原因及解决

最新推荐文章于 2024-06-23 19:03:42 发布

今晚打老虎

最新推荐文章于 2024-06-23 19:03:42 发布

阅读量8.7k

点赞数 6

分类专栏：面试之CV基础知识深度学习点滴

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24502469/article/details/105119449

版权

深度学习点滴同时被 2 个专栏收录

43 篇文章 3 订阅

订阅专栏

面试之CV基础知识

31 篇文章 9 订阅

订阅专栏

训练损失不下降，拟合能力不足，欠拟合

模型结构和特征工程：

原因：模型结构过于简单或者不合理，训练时很难收敛，再者可能是特征工程出现问题

解决：检查模型结构是不是太小太简单和特征工程是否合理

权重初始化：

原因：不合理的权重初始化会导致收敛极慢，合理的权重初始化能改有极大改善

解决：选择适合自己模型的权重初始化，建议无脑xaiver normal

正则化：

原因：L1、L2、Dropout用来防止过拟合，一般一开始不用正则化，过拟合后再进行调整，如果一开始就正则，会导致调试困难

解决：使用BN，一定程度下有抑制过拟合的作用

损失函数、激活函数：

一般卷积层选用ReLU，来避免梯度消失，循环神经网络中一般选择Tanh，全连接多用ReLU，输出层多用Sigmoid或SoftMax

根据任务类型不同选择损失函数：分类任务一般选择交叉熵，回归任务选择MSE，对齐任务用CTC，生成任务用WGAN LOSS等

优化器、学习率

一般选择Adam，Adam效果不好的情况下选择SGD等其他方式

学习率决定了网络的训练速度，训练开始LR可以大一点，在趋于收敛时，减小学习率来找到最优解，一般按10的倍数增大或减小或选择自动更新的方案

训练时间：

计算量大，训练时间短

训练瓶颈：

梯度消失、神经失活过多、梯度爆炸、学习率过大过小

BatchSize过大过小

BS过小导致后期难以收敛，BS过大由于梯度平均导致前期收敛慢

数据集未打乱

数据集丰富度降低

数据集有脏数据

未进行归一化

训练损失不下降，拟合能力不足，欠拟合

训练损失不下降且验证损失不下降，训练有问题，欠拟合

训练损失下降但验证损失不下降，训练过拟合

选择合适的正则化方法，如L1、L2等
减少特征维度，去掉基本无关维度
降低模型复杂度
扩增数据集，增加数据丰富性

今晚打老虎

关注

6
点赞
踩
41

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。