DL notes 02: ML/DL模型训练的Tips

最新推荐文章于 2021-05-07 15:46:59 发布

bloodbabykfz

最新推荐文章于 2021-05-07 15:46:59 发布

阅读量409

点赞数 1

分类专栏： Deep Learning

本文链接：https://blog.csdn.net/rrrsjtu/article/details/104325608

版权

本文介绍了模型训练中遇到的基本概念，如训练误差和泛化误差，以及欠拟合和过拟合的解决方法，包括权重衰减、dropout等。还讨论了梯度消失和爆炸问题，随机初始化模型参数的重要性，以及环境因素如协变量偏移、标签偏移和概念偏移对模型的影响。最后，提及了训练集、验证集和测试集的合理分配和使用。

摘要由CSDN通过智能技术生成

文章目录

一、基本概念

训练误差（training error）：指模型在训练数据集(train dataset)上表现出的误差。
泛化误差（generalization error）：指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集(test dataset)上的误差来近似。
损失函数（loss function）：计算训练误差和泛化误差可以使用之前介绍过的损失函数，例如线性回归(linear regression)用到的平方损失(squared loss)函数和softmax回归用到的交叉熵(cross entropy)损失函数。
训练数据集（train dataset）：【模型】（Model）训练的过程其实就是在求【参数】的过程，我们先假定某类【模型】（比如决策树模型），然后用【训练集】来训练，学习到对应的最优的【参数】。但是问题在于，我们没有办法保证我们假设的那个【模型】是最优的，我们极有可能假设错误对吧。那怎么办呢？有一个简单的解决方案就是我们假设一堆的模型，然后用【训练集】分别对这些模型来进行训练，学习到每一个【模型】中分别对应的参数。这是训练模型的第一步，也就是【训练集】的任务。（以上摘录自答疑汇总）影响欠拟合和过拟合的另一个重要因素是训练数据集的大小。一般来说，如果训练数据集中样本数过少，特别是比【模型参数】数量（按元素计）更少时，过拟合（overfitting）更容易发生。此外，泛化误差不会随训练数据集里样本数量增加而增大。因此，在计算资源允许的范围之内，我们通常希望训练数据集大一些，特别是在模型复杂度较高时，例如层数较多的深度学习模型。
验证数据集（validation dataset）：从严格意义上讲，测试数据集只能在所有超参数和模型参数选定后使用一次。不可以使用测试数据选择模型，如调参。由于无法从训练误差估计泛化误差，因此也不应只依赖训练数据选择模型。鉴于此，我们可以预留一部分在训练数据集和测试数据集以外的数据来进行模型选择。这部分数据被称为验证数据集，简称验证集（validation set）。例如，我们可以从给定的训练集中随机选取一小部分作为验证集，而将剩余部分作为真正的训练集。
测试数据集（test dataset）：当通过损失函数和评价指标（evaluation metric）判断学习到【参数】和【超参数】后，就确定具体模型和模型的参数，需要新数据来测试模型效果。因此，不能使用之前的数据，而单独构建全新数据集，即【测试集】。这个时候我们就要来看最后的结果怎么样，如果结果很好，那么说明一切顺利，但是如果结果很差，那问题出在哪里呢？其中可能的一个原因就是我们事先假定的那一类的【模型】（比如我们最先选择的决策树模型）并不是适合来分析这些数据，因此哪怕我们选择出了这一堆决策树模型中最好的一个（超参数的选择过程），它的效果依旧不怎么样。（摘录自答疑汇总）
k-fold 交叉验证：由于验证数据集不参与模型训练，当训练数据不够用时，预留大量的验证数据显得太奢侈。一种改善的方法是K折交叉验证（K-fold cross-validation）。在K折交叉验证中，我们把原始训练数据集分割成K个不重合的子数据集，然后我们做K次模型训练和验证。每一次，我们使用一个子数据集验证模型，并使用其他K-1个子数据集来训练模型。在这K次训练和验证中，每次用来验证模型的子数据集都不同。最后，我们对这K次训练误差和验证误差分别求平均。
欠拟合（underfitting）：模型无法得到较低的训练误差，我们将这一现象称作欠拟合（underfitting）。
过拟合（overfitting）：模型的训练误差远小于它在测试数据集上的误差，我们称该现象为过拟合（overfitting）。
模型复杂度：为了解释模型复杂度，我们以多项式函数拟合为例。给定一个由标量数据特征 $x$ 和对应的标量标签 $y$ 组成的训练数据集，多项式函数拟合的目标是找一个 $K$ 阶多项式函数

$\hat{y} = b + \sum_{k=1}^K x^k w_k$
来近似 $y$ 。在上式中， $w_k$ 是模型的权重参数， $b$ 是偏差参数。与线性回归相同，多项式函数拟合也使用平方损失函数。特别地，一阶多项式函数拟合又叫线性函数拟合。

给定训练数据集，模型复杂度和误差之间的关系：
模型复杂度和误差的关系

二、应对欠拟合和过拟合的解决方法

2.1 欠拟合的解决办法

这里仅以个人经验列举一些普通操作：
1.提升现有模型的复杂度，提升模型的描述能力
2.更换合适的模型
3.检查损失函数是否适合模型优化过程

2.2 过拟合的解决办法

2.2.1 权重衰减 / $L_{2}$ 范数正则化

权重衰减等价于 $L_2$ 范数正则化（regularization）。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小，是应对过拟合的常用手段。 $L_2$ 范数正则化在模型原损失函数基础上添加 $L_2$ 范数惩罚项，从而得到训练所需要最小化的函数。 $L_2$ 范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。以线性回归中的线性回归损失函数为例

$\ell(w_1, w_2, b) = \frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right)^2$
其中 $w_1, w_2$ 是权重参数， $b$ 是偏差参数，样本 $i$ 的输入为 $x_1^{(i)}, x_2^{(i)}$ ，标签为 $y^{(i)}$ ，样本数为 $n$