神经网络调参：loss 问题汇总（震荡/剧烈抖动，loss不收敛/不下降）

最新推荐文章于 2023-06-07 10:13:30 发布

访风景于崇阿

最新推荐文章于 2023-06-07 10:13:30 发布

阅读量341

点赞数

分类专栏：深度学习文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/starlight1231/article/details/130048705

版权

个人学习使用，参考：神经网络调参：loss 问题汇总（震荡/剧烈抖动，loss不收敛/不下降）_loss不下降_ytusdc的博客-CSDN博客

1、模型不收敛主要原因

1.1、learning rate设大了会带来跑飞（loss突然一直很大）的问题

1.2、数据库太小一般不会带来不收敛的问题

1、模型不收敛主要原因

loss不收敛主要有以下两种情况，一种是loss一直在震荡,一种是loss下降一点后不再下降到理想水平,而验证集上的表现保持不变。

首先排查方法：

1.保持需要的batchsize不变;
2.查看是否有梯度回传,查看代码如下:

for name, parms in model.named_parameters():
	print('-->name:', name, '-->grad_requirs:', parms.requires_grad, '--weight', torch.mean(parms.data), ' -->grad_value:', torch.mean(parms.grad))

主要有以下几个原因：

1.1、learning rate设大了会带来跑飞（loss突然一直很大）的问题

这个是新手最常见的情况——为啥网络跑着跑着看着要收敛了结果突然飞了呢？可能性最大的原因是你用了relu作为激活函数的同时使用了softmax或者带有exp的函数做分类层的loss函数。当某一次训练传到最后一层的时候，某一节点激活过度（比如100），那么exp(100)=Inf，发生溢出，bp后所有的weight会变成NAN，然后从此之后weight就会一直保持NAN，于是loss就飞起来辣。我的depth estimation相关项目的loss曲线，如下：

可以看出跑飞了，（幸lr设的并不是非常大所以又拉了回来）。如果lr设的过大会出现跑飞再也回不来的情况。这时候你停一下随便挑一个层的weights看一看，很有可能都是NAN了。对于这种情况建议用二分法尝试。0.1~0.0001.不同模型不同任务最优的lr都不一样。

1.2、数据库太小一般不会带来不收敛的问题

只要你一直在train总会收敛（rp问题跑飞了不算）。反而不收敛一般是由于样本的信息量太大导致网络不足以fit住整个样本空间。样本少只可能带来过拟合的问题，你看下你的training set上的loss收敛了吗？如果只是validate set上不收敛那就说明overfitting了，这时候就要考虑各种anti-overfit的trick了，比如dropout，SGD，增大minibatch的数量，减少fc层的节点数量，momentum，finetune等。