如何提高卷积神经网络模型的泛化能力_模型泛化能力差怎么解决-CSDN博客

本文链接：https://blog.csdn.net/justsolow/article/details/105334185

如何提高卷积神经网络模型的泛化能力

在做工程的时候如何提高自己训练出来的模型的泛化能力是一项具有挑战性同时也是一件充满"玄学"的事情。回想我这一年半载训练的那么几个任务的调参来讲，大概可以总结为下面这几点。

1、使用更多的数据。竟可能标注更多的训练数据，这是提高泛化能力最理想的方法，更多的数据让模型得到更充分的学习，自然提高了泛化能力，但实际场景中考虑到标注成本的问题，可能并不能无脑加数据。
2、使用更大的batch_size。在相同迭代次数和学习率的条件下，每批次采用更多的数据将有助于模型更好的学习到正确的模式，模型输出结果也会更加稳定。
3、数据过采样。很多情况下我们拿到手的数据都存在类别不均匀的情况，模型这个时候过多的拟合某类数量多的数据导致其输出结果偏向于该类数据，此时如果我们过采样其他类别的数据，使得数据量比较均衡可以一定程度提高泛化能力。
4、数据增强。数据增强是指在数据有限的情况通过一些几何操作对图像进行变换，使得同类数据的表现形式更加丰富，以此提高模型的泛化能力。数据增强是一门比较大的学问，在分类，检测，分割中数据增强的方式都有区别，我们可以通过研究优秀的开源代码实现的数据增强策略来应用到我们自己的任务中。
5、修改损失函数。这方面有大量的工作，如目标检测中的Focal Loss, GHM Loss，IOU Loss等都是为了提升模型的泛化能力。
修改网络。如果网络过浅并且参数量过少往往会使得模型的泛化能力不足导致欠拟合，此时一般考虑使用简单的堆叠卷积层增加网络的参数，提高模型的特征提取能力。而如果网络过深且训练数据量比较少，那么就容易导致模型过拟合，此时一般需要简化网络结构减少网络层数或者使用resnet的残差结构以及bn层。
6、权重惩罚。权重惩罚也即是正则化操作ÿ