前言
当模型在训练数据上表现良好,但对未见数据的泛化效果不佳时,就会出现过拟合的现象。过拟合是机器学习中一个非常常见的问题,已有大量文献致力于研究防止过拟合的方法。下面,我将介绍八种缓解过拟合的简单方法,每种方法只需对数据、模型或学习算法进行一次修改即可。
数据
与其将所有数据都用于训练,我们可以简单地将数据集分成两组:训练集和测试集。常见的拆分比例是 80% 用于训练,20% 用于测试。我们对模型进行训练,直到它不仅在训练集上表现良好,而且在测试集上也表现良好为止。这表明模型具有良好的泛化能力,因为测试集代表了未用于训练的未知数据。不过,这种方法需要足够大的数据集来训练,即使在拆分之后也是如此。
交叉验证
我们可以把数据集分成 k组(k-fold 交叉验证)。让其中一组作为测试集,其他组作为训练集,重复这一过程,直到每一组都被用作测试集(例如,重复 k 次)。交叉验证允许所有数据最终都用于训练。
数据增强
更大的数据集可以减少过拟合。如果我们无法收集到更多数据,只能局限于当前数据集中的数据,那么我们可以应用数据增强技术来人为增加数据集的规模。例如,如果我们正在为图像分类任务进行训练,我们可以对图像数据集进行各种图像转换(如翻转、旋转、重新缩放、平移)。
特征选择
如果我们只有数量有限的训练样本,而每个样本都有大量特征,那么我们就应该只选择最重要的特征进行训练,这样我们的模型就不需要学习那么多特征,最终就不会过拟合。我们可以简单地测试不同的特征,针对这些特征训练单个模型,然后评估泛化能力,或者使用各种广泛使用的特征选择方法之一。
正则化
正则化是一种限制我们网络学习过于复杂模型的技术,这种模型可能会过度拟合。在 L1 或 L2 正则化中,我们可以在代价函数上添加一个惩罚项,将估计系数推向零(而不是取更极端的值)。L2 正则化允许权重向零衰减,但不会衰减到零,而 L1 正则化允许权重衰减到零。
删除层数
正如在 L1 或 L2 正则化中提到的,过于复杂的模型更有可能出现过拟合。因此,我们可以通过删除层来直接降低模型的复杂度,从而缩小模型的规模。我们还可以通过减少全连接层中神经元的数量来进一步降低复杂度。对于我们的任务来说,我们应该得到一个复杂度在欠拟合和过拟合之间充分平衡的模型。
Dropout
通过在我们的网络层中应用 “Dropout”(一种正则化),我们可以以设定的概率忽略网络中的一个子单元集。使用 "Dropout"技术,我们可以减少神经单元间相互依赖的学习,因为这种学习可能会导致过度拟合。但是,如果使用 “Dropout”,我们就需要更多的epoch才能收敛模型。
Ealy Stop
我们可以首先对模型进行任意数量epoch的训练,并绘制验证损失图。一旦验证损失开始下降(例如不再下降而是开始上升),我们就会停止训练并保存当前模型。我们可以通过监控损失函数图或设置提前停止触发器来实现这一点。保存的模型将是在不同训练epoch值之间进行泛化的最佳模型。
总结
本文重点介绍了神经网络训练过程中解决过拟合的八种常见解决方法,这些基础技术可以帮助大家理解机器学习领域中的基础知识。
最后的最后
感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。
因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

大模型知识脑图
为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
经典书籍阅读
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
面试资料
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
