Datawhale X 李宏毅苹果书 AI夏令营，深度学习--实践方法论

最新推荐文章于 2024-10-07 06:31:57 发布

晋级之路

最新推荐文章于 2024-10-07 06:31:57 发布

阅读量439

点赞数 3

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/m0_66298628/article/details/141874390

版权

1.模型偏差

如果模型的灵活性不够大，可以增加更多特征，可以设一个更大的模型，可以用深度学习来增加模型的灵活性，这是第一个可以的解法。但是并不是训练的时候，损失大就代表一定是模型偏差，可能会遇到另外一个问题：优化做得不好。

2.优化问题

梯度下降这一个算法无法找出损失低的函数，梯度下降是解一个优化的问题。

3.判断优化问题还是模型偏差问题影响模型的损失

可以先跑一些比较小的、比较浅的网络，或甚至用一些非深度学习的方法，比如线性模型、支持向量机（Support Vector Machine，SVM），SVM 可能是比较容易做优化的，它们比较不会有优化失败的问题。

大致操作如下：

（1）可以先训练一些比较浅的模型，或者是一些比较简单的模型，先知道这些简单的模型，到底可以得到什么样的损失。

（2）接下来还缺一个深的模型，如果深的模型跟浅的模型比起来，深的模型明明灵活性比较大，但损失却没有办法比浅的模型压得更低代表说优化有问题，梯度下降不给力，因此要有一些其它的方法来更好地进行优化。

4.模型偏差，优化及过拟合的判断

如果训练损失大，可以先判断是模型偏差还是优化。如果是模型偏差，就把模型变大。假设经过努力可以让训练数据的损失变小，接下来可以来看测试数据损失；如果测试数据损失也小，比这个较强的基线模型还要小，就结束了。

但如果训练数据上面的损失小，测试数据上的损失大，可能是真的过拟合。在测试上的结果不好，不一定是过拟合。要把训练数据损失记下来，先确定优化没有问题，模型够大了。接下来才看看是不是测试的问题，如果是训练损失小，测试损失大，这个有可能是过拟合。

5.过拟合

过拟合是指机器学习模型在训练集上表现良好,但在测试集上表现不佳的现象。

（1）什么原因导致过拟合？

‌数据量不足‌：当可用于训练的数据量很少时，模型容易记住训练数据中的细节和噪声，而无法捕捉到数据的真实模式和一般性规律。这导致模型在未见过的数据上的泛化能力较差，产生过拟合‌1。

‌参数数量过多‌：如果模型的参数数量过多，模型具有较高的复杂度，容易过度拟合训练数据。过多的参数使得模型可以在训练数据中对各种细节进行拟合，但这些细节在新数据上可能并不具有普遍性，从而导致过拟合‌。

‌特征选择不当‌：选择不恰当的特征或过多的特征也可能导致过拟合。如果选择了与目标变量关系不大或冗余的特征，模型可能过度依赖这些无用或冗余的特征，而无法准确地捕捉数据的本质模式‌。

‌模型复杂度过高‌：过于复杂的模型容易产生过拟合。复杂的模型具有更多的参数和非线性关系，可以在训练数据中灵活地拟合各种模式和关系，但这种灵活性也使得模型对噪声和不一般的数据更加敏感，从而导致在新数据上的表现不佳‌。

‌训练过程中的噪声‌：在训练过程中存在的噪声或随机性，例如数据中的误差或训练集的不完整性，这些噪声可能会被模型错误地学习并拟合。这导致模型过拟合了这些噪声，而不是真正的数据模式‌。

‌训练集和测试集特征分布不一致‌：训练集和测试集的特征分布不一致也会导致过拟合。如果模型在训练时学习了某些特定特征，但在测试时这些特征不存在或分布不同，那么模型在测试时的性能会下降‌。

‌样本里的噪音数据干扰过大‌：样本里的噪音数据干扰过大，导致模型过分记住了噪音特征，反而忽略了真实的输入输出间的关系‌。

‌权值学习迭代次数足够多（Overtraining）‌：当权值学习迭代次数足够多时，模型拟合了训练数据中的噪声和训练样例中没有代表性的特征，导致过拟合‌2。

综上所述，过拟合的产生是多方面因素共同作用的结果，解决过拟合问题需要从多个角度入手，如增加数据量、简化模型、优化特征选择等‌。

（2）怎么解决过拟合问题？

i.增加训练集,模型灵活性变大，即数据增强。数据增强就是根据问题的理解创造出新的数据。数据增强，要根据对数据的特性以及要处理的问题的理解，来选择合适的数据增强的方式。

ii.给模型一些限制，让模型不要有过大的灵活性，最好模型正好跟背后产生数据的过程，过程是一样的就有机会得到好的结果。给模型制造限制的方法有：给模型较少的参数，用较少的特征，早停、正则化、丢弃法等。

但是不要给模型太多限制，这样会导致模型偏差。

模型的复杂程度，或这样让模型的灵活性越来越大。当模型越来越复杂的时候，复杂到某一个程度，过拟合的情况就会出现，所以在训练损失上面可以得到比较好的结果。在测试损失上面，会得到比较大的损失，可以选一个中庸的模型，不是太复杂的，也不是太简单的，刚刚好可以在训练集上损失最低，测试损失最低。

假设 3 个模型的复杂的程度不太一样，不知道要选哪一个模型才会刚刚好，在测试集上得到最好的结果。因为选太复杂的就过拟合，选太简单的有模型偏差的问题。把这 3 个模型的结果都跑出来，上传到 Kaggle 上面，损失最低的模型显然就是最好的模型，但是不建议这么做。因为这样太随机。

关注