机器学习中结构风险最小化的正则化项用途及原理详解

最新推荐文章于 2024-09-27 19:00:00 发布

LaoYuanPython

最新推荐文章于 2024-09-27 19:00:00 发布

阅读量174

点赞数 1

分类专栏：机器学习疑难问题集文章标签：机器学习人工智能正则化项结构风险最小化模型

本文链接：https://blog.csdn.net/laoyuanpython/article/details/141722434

版权

机器学习疑难问题集专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在这里插入图片描述

一、概述

数学和工程领域，正则(Regularize)意味着使某物标准化或规范化，在机器学习领域指的是使模型的行为更加规范化，以避免极端或过于复杂的模型。

正则化项（Regularization Term）是机器学习模型中用于控制模型复杂度的一个附加项。正则化项的作用是使模型“正常化”或“规范化”，避免模型变得过于复杂或异常。它被添加到损失函数中，以防止模型过拟合（即在训练数据上表现很好，但在未见过的数据上表现差）。正则化通过限制模型参数的大小，减少了模型对训练数据的拟合程度，这有助于防止模型学习到数据中的随机噪声，从而提高模型在新数据上的表现。

常见的正则化：

L1 正则化（也称为 Lasso 正则化）： $w∥_1$ 是 L1 范数，即权重的绝对值之和。
L2 正则化（也称为 Ridge 正则化）： $w∥_2^2$ 是 L2 范数，即权重的平方和的平方根。
弹性网（Elastic Net）正则化：结合了 L1 和 L2 正则化，形式为 $α∥w∥_1+(1−α)∥w∥_2^2$ ,其中 α 是介于 0 到 1 之间的系数。

二、正则化项的作用

正则化项的选择和正则化系数的大小对模型的确认有重要影响，需要根据具体问题和数据集进行调整。

2.1、模型复杂度与参数值的关系

模型的复杂度通常与参数的数量和大小有关：

参数越多模型越复杂，如果模型参数过多，而训练数据有限，模型可能会过度拟合训练数据，即学习到数据中的噪声和异常值，而不是数据的一般规律，这会导致模型在新数据上的泛化能力下降。
较大的参数值可能导致模型对训练数据的小波动过于敏感，从而学习到噪声而非潜在的数据分布。考虑一下线性方程中，权重值越大，模型的输出值受权重影响就越大，从而导致对训练数据的小波动过于敏感

因此简化的模型通常具有更好的泛化能力，因为它们不太倾向于捕捉训练数据中的特定细节，而是学习更普遍的特征。

2.2、正则化的机制

在《机器学习中的模型、策略和算法：https://blog.csdn.net/LaoYuanPython/article/details/141265068》中介绍了：“结构风险最小化（Structural Risk Minimization，SRM）是为了防止过拟合而提出来的策略，结构风险最小化等价于正则化（Regularization），是在经验风险上加上表示模型复杂度的正则化项（Regularizer）或罚项（Penalty Term）：λJ(f)”。

正则化通过向损失函数添加一个与参数大小成比例的惩罚项λJ(f)来工作。这个惩罚项鼓励模型在优化过程中减小参数值，以减少整体的损失。通过限制模型参数的大小，减少了模型对训练数据的拟合程度，这有助于防止模型学习到数据中的随机噪声，从而提高模型在新数据上的表现。

2.3、正则化的原理

正则化项与模型复杂度相关，正则化通过向损失函数添加一个与模型参数大小成比例的惩罚项来工作。这个惩罚项鼓励模型在优化过程中减小参数值，以减少整体的损失。

这是因为在同样的参数下，正则化项会导致结构风险的函数值比经验风险的函数值大（参考《机器学习中的模型、策略和算法：https://blog.csdn.net/LaoYuanPython/article/details/141265068》关于二者的介绍），要尽可能减少正则化项的影响，使得结构风险最小化，就会导致模型的权重参数变小，更多的出现0值或趋近于0值，相当于通过惩罚大的参数值来鼓励模型选择更简单的表示，这有助于提高模型的泛化能力。

正则化项相当于在模型参数上施加了平滑性约束，使模型倾向于选择更平滑的参数值，这在某些情况下可以简化模型的行为：

L1正则化（Lasso）：在梯度下降或其他优化算法中，L1正则化由于其非光滑性（在零点处不可导），会导致一些权重在更新过程中直接变为零，因此特别容易产生稀疏的权重矩阵，即许多权重参数被驱动到零。这种稀疏性导致模型只使用重要的特征，从而简化了模型的表示；
L2正则化（Ridge）：L2正则化倾向于使权重参数的值更小，但不会使它们变为零。这有助于控制模型的复杂度，同时保留了所有特征，只是减少了它们的影响力；
偏差-方差权衡：通过正则化，模型可能会引入一些偏差，因为模型不能完美地拟合训练数据。然而，这种偏差的增加通常伴随着方差的减少，从而提高了模型的泛化能力。

正则化系数λ允许控制正则化项的强度，较大的正则化系数会导致更强的简化效果，但也可能过度简化模型，引入欠拟合的风险。

通过这些机制，正则化帮助模型选择一个更简单但仍然有效的参数设置，从而提高了模型在未见过的数据上的预测性能。

三、小结

本文介绍了机器学习中正则化的机制，以及引入正则化可以简化模型和防止过拟合的原理。正则化项相当于在模型参数上施加了平滑性约束，使模型倾向于选择更平滑的参数值，这在某些情况下可以简化模型的行为。正则化系数λ允许控制正则化项的强度，较大的正则化系数会导致更强的简化效果，但也可能过度简化模型，引入欠拟合的风险。通过这些机制，正则化帮助模型选择一个更简单但仍然有效的参数设置，从而提高了模型在未见过的数据上的预测性能。

更多人工智能知识学习请关注专栏《零基础机器学习入门》后续的文章。

更多人工智能知识学习过程中可能遇到的疑难问题及解决办法请关注专栏《机器学习疑难问题集》后续的文章。