过拟合/欠拟合，梯度消失和爆炸概念

最新推荐文章于 2024-01-08 12:29:31 发布

IStarwang

最新推荐文章于 2024-01-08 12:29:31 发布

阅读量393

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/u013154398/article/details/104383193

版权

本文介绍了深度学习中的过拟合、欠拟合现象，以及梯度消失和爆炸问题。讨论了训练误差与泛化误差的区别，并提出验证数据集和K折交叉验证的重要性。接着，文章探讨了欠拟合和过拟合的原因，重点关注模型复杂度和训练数据集大小的影响。此外，还提及了正则化和丢弃法作为防止过拟合的策略，以及深度模型中数值稳定性面临的挑战。最后，文章讨论了环境因素如协变量偏移、标签偏移和概念偏移对模型训练的影响。

摘要由CSDN通过智能技术生成

在解释过拟合/欠拟合之前，我们需要区分训练误差（training error）和泛化误差（generalization error）。通俗来讲，前者指模型在训练数据集上表现出的误差，后者指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函数，例如线性回归用到的平方损失函数和softmax回归用到的交叉熵损失函数。

验证数据集

从严格意义上讲，测试集只能在所有超参数和模型参数选定后使用一次。不可以使用测试数据选择模型，如调参。由于无法从训练误差估计泛化误差，因此也不应只依赖训练数据选择模型。鉴于此，我们可以预留一部分在训练数据集和测试数据集以外的数据来进行模型选择。这部分数据被称为验证数据集，简称验证集（validation set）。例如，我们可以从给定的训练集中随机选取一小部分作为验证集，而将剩余部分作为真正的训练集。

K折交叉验证

由于验证数据集不参与模型训练，当训练数据不够用时，预留大量的验证数据显得太奢侈。一种改善的方法是K折交叉验证（K-fold cross-validation）。在K折交叉验证中，我们把原始训练数据集分割成K个不重合的子数据集，然后我们做K次模型训练和验证。每一次，我们使用一个子数据集验证模型，并使用其他K-1个子数据集来训练模型。在这K次训练和验证中，每次用来验证模型的子数据集都不同。最后，我们对这K次训练误差和验证误差分别求平均

接下来，我们将探究模型训练中经常出现的两类典型问题：

一类是模型无法得到较低的训练误差，我们将这一现象称作欠拟合（unde

最低0.47元/天解锁文章

IStarwang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
过拟合/欠拟合，梯度消失和爆炸概念

在解释过拟合/欠拟合之前，我们需要区分训练误差（training error）和泛化误差（generalization error）。通俗来讲，前者指模型在训练数据集上表现出的误差，后者指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函数，例如线性回归用到的平方损失函数和softmax回归用到的交叉熵损失函数。...
复制链接

扫一扫