什么是神经网络：过拟合

一直有梦想的兔子

于 2024-04-28 22:14:47 发布

阅读量950

点赞数 10

文章标签：人工智能机器学习深度学习神经网络算法

本文链接：https://blog.csdn.net/weixin_38232619/article/details/138293046

版权

几乎每个神经网络都会遇到的问题就是过拟合。什么是过拟合呢？

神经网络过拟合是指模型在训练过程中过度学习训练数据的细节和噪音，导致在未见过的数据上表现不佳的现象。具体来说，神经网络在训练过程中可能会学习到训练数据中的随机误差或噪音，而不是真正的数据模式或规律。这会导致神经网络在训练集上表现良好，但在测试集或实际应用中表现不佳。比如下图：

从第一张图我们可以看到，这个神经网络精准的分类了每一个训练样本点，太过正确的分类反而使这样的神经网络不具有泛化能力，我们也不需要这样的神经网络。我们需要的是第三张图这样的神经网络，能够得到样本的普适规律适用于大部分的测试数据，这样的网络才是理想的。

那么过拟合是怎么造成的呢？主要有以下几个原因：

模型复杂度过高：神经网络模型过于复杂，拥有大量参数和复杂的结构，可能会导致模型过度适应训练数据的细节和噪音，而忽略了数据中的真正模式。
训练数据不足或不平衡：如果训练数据量不够大或不够多样化，模型可能无法捕捉到整体数据分布的特征，而只是记住了训练集中的特定样本。
训练过程中的噪音：训练数据中的噪音和异常值会对模型学习产生干扰，导致模型过度拟合这些噪音。
过度训练：训练周期过长或训练次数过多可能会使模型过度拟合训练数据。

怎么做可以防止过拟合呢？有以下几个方法：

一· 正则化：

正则化是一种用于控制机器学习模型复杂度以防止过拟合的技术。常见的正则化方法包括L1正则化（Lasso）和L2正则化（Ridge），它们通过向模型的损失函数添加惩罚项来限制模型参数的大小。

1. L1 正则化（Lasso）

L1正则化通过向损失函数添加参数的L1范数来限制模型的复杂度。具体来说，对于线性模型，L1正则化的损失函数如下：

其中：

OriginalLoss是模型的原始损失（例如均方误差）。
λ 是正则化强度的超参数，控制正则化项的影响程度。
𝑤𝑖是模型的权重参数。

L1正则化倾向于使得一些权重变为零，从而实现特征选择的效果。这是因为L1范数具有稀疏性，可以将不重要的特征的权重推向零。

例如，在线性回归中，通过最小化带有L1正则化的损失函数，可以实现特征选择，只保留对预测目标有显著影响的特征。

2. L2 正则化（Ridge）

L2正则化通过向损失函数添加参数的L2范数来限制模型的复杂度。对于线性模型，L2正则化的损失函数如下：

其中的符号意义与L1正则化中相同。

L2正则化倾向于使权重参数的值变得更小，但不会将其推向零。它有助于防止模型参数过大，减少模型对训练数据中噪声的敏感性，从而提高模型的泛化能力。

例如，在逻辑回归或线性回归中，通过使用L2正则化，可以减少模型对某些特征的过度依赖，改善模型的泛化能力，提高在未见过的数据上的表现。

二. Dropout

Dropout在训练模型中是如何实现的呢？Dropout的做法是在训练过程中按一定比例（比例参数可设置）随机忽略或屏蔽一些神经元。这些神经元被随机“抛弃”，也就是说它们在正向传播过程中对于下游神经元的贡献效果暂时消失了，反向传播时该神经元也不会有任何权重的更新。所以，通过传播过程，dropout将产生和L2范数相同的收缩权重的效果。

1. 随机丢弃神经元

在每一次训练迭代中，Dropout 将随机选择一部分神经元，并将它们的输出置为零（即丢弃）。这意味着这些神经元在该次迭代中不参与前向传播和反向传播过程，它们的权重也不会更新。
2. 训练时和测试时的不同

在训练阶段，Dropout 起作用，随机丢弃神经元以防止网络对特定神经元的过度依赖，从而提高模型的泛化能力。而在测试阶段，通常会将所有神经元保留，但通过缩放每个神经元的输出（通常乘以丢弃率的倒数）来保持输出的期望值不变。

需要注意的是

Dropout 比例的选择：通常的经验是在 0.2 到 0.5 之间选择丢弃率，具体取决于数据集和模型的复杂度。
不要在输出层使用 Dropout：在输出层添加 Dropout 可能会导致模型无法正常学习，因为 Dropout 可能会丢弃太多重要信息。
与其他正则化方法结合使用：Dropout 可以与 L1 正则化、L2 正则化等其他正则化方法结合使用，以进一步减少过拟合风险。

总之，Dropout 是一种简单有效的正则化方法，通过随机丢弃神经元来减少神经网络的复杂性，从而提高模型的泛化能力和鲁棒性，尤其在处理深度神经网络和大规模数据集时特别有用

三. 数据增强

数据增强：增加训练数据量，或通过对训练数据进行随机变换（如旋转、缩放、平移等）来增加数据多样性。

总之，防止神经网络过拟合是很有必要的。神经网络防止过拟合是确保模型能够在未知数据上表现良好、泛化能力强大，并具有稳定性和可解释性的关键步骤。采用适当的正则化、Dropout、数据增强等技术是有效防止过拟合的重要手段，可以提高神经网络模型的实用性和应用范围。

喜欢的话点个关注哦～会每天分享人工智能机器学习内容，回复关键字可获取相关算法数据及代码～

一直有梦想的兔子

关注

10
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
什么是神经网络：过拟合

神经网络过拟合是指模型在训练过程中过度学习训练数据的细节和噪音，导致在未见过的数据上表现不佳的现象。具体来说，神经网络在训练过程中可能会学习到训练数据中的随机误差或噪音，而不是真正的数据模式或规律。这会导致神经网络在训练集上表现良好，但在测试集或实际应用中表现不佳。
复制链接

扫一扫