正则化最小二乘

最新推荐文章于 2025-10-07 23:47:17 发布

转载最新推荐文章于 2025-10-07 23:47:17 发布 · 7.2k 阅读

机器学习专栏收录该内容

2 篇文章

订阅专栏

正则化的最小二乘法

在机器学习或者模式识别中，会出现overfitting，而当网络逐渐overfitting时网络权值逐渐变大，因此，为了避免出现overfitting,会给误差函数添加一个惩罚项，常用的惩罚项是所有权重的平方乘以一个衰减常量之和。其用来惩罚大的权值。

权值衰减惩罚项使得权值收敛到较小的绝对值，而惩罚大的权值。因为大的权值会使得系统出现过拟合，降低其泛化性能。

在单元 (unimodal) 目标变量的线性模型中，MLE (Maximum likelihood) 和 Least Squares (最小二乘法) 是常用的两种估计模型参数向量 W 的解法。他们都有个共同点，求解得到的参数向量 W 能够保证估计的目标值和观测得到的目标值之间的误差最小。但是单纯的考虑误差最小化得到的模型会有过拟合现象，也就是预测效果会很差。为了解决这个问题，在目标函数中往往都会考虑加入正则项。这篇博文正是为了记录哪些正则是比较常用的，以及他们所能达到的效果。以最小二乘误差函数为例，观测值 t 由两部分组成，真实值和随机误差项：

由于照成实验误差的因素会很多，通常会假设这些误差会线性叠加而成，这样跟据中心极限定理，随机误差项会服从正太分布。在没加入正则项之前目标函数可以表示为，其实是N个服从独立同分布假设的样本的似然函数。

通过MLE，我们可以得到回归模型权重参数 W 的最小二乘解或者通过不同的在线学习算法 (Sequential Learning 如 Stochastic Gradient Decent)。最小二乘的目标就在于寻找一个参数向量 W 使得估计值和观测目标值的误差最小。但如果观测得到的样本数量非常小的话，参数向量 W 中的某几个维度上的值会非常的大，从而造成过拟合。解决过拟合的常用方式加入一些正则项限制参数向量 W 的取值幅度。通常会考虑二次正则项，如下公式所示: