【深度学习】常见的提高模型泛化能力的方法

最新推荐文章于 2025-03-10 12:15:52 发布

Swocky

最新推荐文章于 2025-03-10 12:15:52 发布

阅读量2.4w

点赞数 12

分类专栏：深度学习文章标签：深度学习人工智能机器学习神经网络

本文链接：https://blog.csdn.net/Swocky/article/details/105717067

版权

深度学习专栏收录该内容

34 篇文章

订阅专栏

前言

模型的泛化能力是其是否能良好地应用的标准，因此如何通过有限的数据训练泛化能力更好的模型也是深度学习研究的重要问题。仅在数据集上高度拟合而无法对之外的数据进行正确的预测显然是不行的。本文将不断总结相关的一些方法。

一、模型角度

Dropout

首先随机（临时）删掉网络中一半的隐藏神经元，输入输出神经元保持不变。然后把输入x通过修改后的网络前向传播，然后把得到的损失结果通过修改的网络反向传播。一小批训练样本执行完这个过程后，在没有被删除的神经元上按照随机梯度下降法更新对应的参数（w，b），然后继续重复这一过程。
Dropout简单来说是是模型节点随机失活，这样使之不会太依赖数据的某些局部特征。
那么为什么这样做能提高模型返回能力呢？
取平均的作用
模型的随机失活最终相当于得到了不同的模型，然后类似于投票取各个子模型普遍认同的解，这样将更具有参考价值。有一些集成学习的意味，最终能提高模型的泛化效果。
减少神经元之间复杂的共适应关系
因为dropout程序导致两个神经元不一定每次都在一个dropout网络中出现。这样权值的更新不再依赖于有固定关系的隐含节点的共同作用，阻止了某些特征仅仅在其它特定特征下才有效果的情况。迫使网络去学习更加鲁棒的特征，这些特征在其它的神经元的随机子集中也存在。