Datawhale X 李宏毅苹果书 AI夏令营 Task03笔记

最新推荐文章于 2024-09-13 14:20:18 发布

starlight078

最新推荐文章于 2024-09-13 14:20:18 发布

阅读量545

点赞数 18

文章标签：人工智能笔记

本文链接：https://blog.csdn.net/starlight078/article/details/141870888

版权

读书笔记：《深度学习详解》第二章机器学习框架与实践攻略

本章深入探讨了机器学习模型的实际应用中可能遇到的常见问题，包括模型偏差、优化问题、过拟合、交叉验证和数据分布不匹配等。通过详细分析这些问题及其应对策略，帮助读者更好地理解如何有效地构建和调整机器学习模型。

2.1 模型偏差

模型偏差通常是由于模型的复杂度不足，导致其无法很好地拟合训练数据，结果是训练误差较大。模型偏差往往出现在模型设计过于简单的情况下，比如线性回归模型用于处理高度非线性的任务。

模型偏差的表现：

高训练误差：在训练过程中，如果发现训练误差始终较高，并且无法通过更多的迭代或优化算法的调整来显著降低误差，这通常是模型偏差的表现。

例子：简单线性模型的局限性

假设我们使用一个简单的线性回归模型来预测未来的视频观看次数。如果模型仅考虑前一天的观看次数作为特征进行预测，可能会发现模型无法准确预测未来的观看次数。这是因为观看次数可能受到更多复杂因素的影响，如周末效应、节假日等，仅使用前一天的数据不足以捕捉这些复杂模式。
在这里插入图片描述

如何判断是模型偏差：

训练误差高，测试误差也高：如果模型在训练集和测试集上的误差都较高，并且增加训练数据或改变优化算法的效果不明显，通常意味着模型复杂度不足，无法捕捉数据中的真实模式。

应对策略：

增加输入特征：通过引入更多的特征来增强模型的表达能力。例如，在预测观看次数时，可以考虑过去 7 天、30 天的观看次数，以及其他相关变量如天气、节假日等。
使用更复杂的模型：如果线性回归模型无法满足要求，可以考虑使用多层感知器（MLP）或卷积神经网络（CNN）等更复杂的模型，这些模型可以更好地处理非线性关系。

2.2 优化问题

即使模型本身具有足够的复杂度，模型在训练过程中仍可能因优化算法的局限性而表现不佳。这种情况可能表现为模型陷入局部最小值、鞍点，或因学习率设置不当而导致训练过程缓慢或不收敛。

优化问题的表现：

损失函数下降缓慢或停滞：如果在训练过程中，损失函数的下降速度减缓，甚至停滞不前，可能意味着优化算法没有找到合适的优化路径，陷入了局部最小值或鞍点。

例子：深层神经网络的优化问题

在深层神经网络的训练过程中，尤其是在使用大量参数的情况下，优化问题更加明显。例如，在训练一个 56 层的深度残差网络时，尽管理论上模型的表达能力更强，但由于优化算法无法找到全局最优解，模型可能陷入局部最小值，导致性能不如预期。

如何判断是优化问题：

训练误差高，但测试误差相对较低：如果模型在训练集上的误差较高，但在测试集上误差相对较低，可能表明优化算法未能充分训练模型，使其无法达到预期的训练效果。

应对策略：

从简单模型开始：通过先训练较浅的模型，再逐步增加模型的深度，可以减少优化过程中陷入局部最小值的风险。
改进优化算法：采用更高级的优化算法如 Adam、RMSProp 或加入动量，可以帮助模型更好地找到全局最优解，避免陷入局部最小值或鞍点。

**插图建议**：在此处插入优化曲线图，展示不同优化算法在深层网络中的表现，以及使用改进算法后的效果。
在这里插入图片描述

2.3 过拟合

过拟合是指模型在训练数据上表现非常好，但在测试数据上表现较差。这种情况通常发生在模型过于复杂，能够精确拟合训练数据中的所有细节，包括噪声，但无法泛化到未见过的数据。

过拟合的表现：

训练误差低，测试误差高：模型在训练集上的误差非常低，甚至接近零，但在测试集上误差显著增加，表明模型可能已经过拟合。

例子：复杂模型的过拟合

假设我们训练一个深层神经网络来预测用户的观看行为，模型在训练数据上的表现非常好，几乎能够准确预测所有的训练样本。然而，在新的测试数据上，模型的预测效果却大大下降，这表明模型可能过拟合了训练数据中的噪声。
**插图建议**：可以插入过拟合示意图，显示模型在训练数据和测试数据上的损失差异，以及正则化后的效果对比。
如何判断是过拟合：