过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

最新推荐文章于 2022-07-20 21:16:24 发布

wangyuzhi2016

最新推荐文章于 2022-07-20 21:16:24 发布

阅读量159

点赞数

本文链接：https://blog.csdn.net/wangyuzhi2016/article/details/104375643

版权

一、郭拟合、欠拟合及其解决方案
1.训练误差和泛化误差
训练误差是指模型在训练数据集上表现出的误差，泛化误差是指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函数，例如线性回归用到的平方损失函数和softmax回归用到的交叉熵损失函数。
机器学习模型应关注降低泛化误差。
2.K折交叉验证
K折交叉验证是为了改善由于验证数据集不参与模型训练，当训练数据不够用时，预留大量的验证数据显得太奢侈。在K折交叉验证中，我们把原始训练数据集分割成K个不重合的子数据集，然后我们做K次模型训练和验证。每一次，我们使用一个子数据集验证模型，并使用其他K-1个子数据集来训练模型。在这K次训练和验证中，每次用来验证模型的子数据集都不同。最后，我们对这K次训练误差和验证误差分别求平均。
我们将探究模型训练中经常出现的两类典型问题：

欠拟合是模型无法得到较低的训练误差。（underfitting）；
过拟合是模型的训练误差远小于它在测试数据集上的误差（overfitting）。在实践中，我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题，在这里我们重点讨论两个因素：模型复杂度和训练数据集大小。
二、梯度消失、梯度爆炸
1。深度模型有关数值稳定性的典型问题是消失（vanishing）和爆炸（explosion）。

当神经网络的层数较多时，模型的数值稳定性容易变差。

假设一个层数为 L 的多层感知机的第 l 层 H(l) 的权重参数为 W(l) ，输出层 H(L) 的权重参数为 W(L) 。为了便于讨论，不考虑偏差参数，且设所有隐藏层的激活函数为恒等映射（identity mapping） ϕ(x)=x 。给定输入 X ，多层感知机的第 l 层的输出 H(l)=XW(1)W(2)…W(l) 。此时，如果层数 l 较大， H(l) 的计算可能会出现衰减或爆炸。举个例子，假设输入和所有层的权重参数都是标量，如权重参数为0.2和5，多层感知机的第30层输出为输入 X 分别与 0.230≈1×10−21 （消失）和 530≈9×1020 （爆炸）的乘积。当层数较多时，梯度的计算也容易出现消失或爆炸。

随机初始化模型参数

wangyuzhi2016

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

一、郭拟合、欠拟合及其解决方案1.训练误差和泛化误差训练误差是指模型在训练数据集上表现出的误差，泛化误差是指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函数，例如线性回归用到的平方损失函数和softmax回归用到的交叉熵损失函数。机器学习模型应关注降低泛化误差。2.K折交叉验证K折交叉验证是为了改善由于...
复制链接

扫一扫