回归算法的正则化

最新推荐文章于 2024-04-30 23:33:17 发布

苟冬新

最新推荐文章于 2024-04-30 23:33:17 发布

阅读量3.2k

点赞数 2

分类专栏：机器学习文章标签：机器学习正则化回归正则化 L1正则化项 L2正则化项机器学习过拟合

本文链接：https://blog.csdn.net/weixin_40187450/article/details/89430042

版权

机器学习专栏收录该内容

12 篇文章 5 订阅

订阅专栏

正则化：机器学习算法中为防止数据过拟合而采取的“惩罚”措施。

欠拟合问题，根本的原因是特征维度过少，导致拟合的函数无法满足训练集，误差较大。
欠拟合问题可以通过增加特征维度来解决。

多项式是让模型拟合的更好的，可以解决欠拟合问题

过拟合问题，根本的原因则是特征维度过多，导致拟合的函数完美的经过训练集，但是对新数据的预测结果则较差。

解决过拟合的方法
1.正则化
(1)保持所有的特征变量, 但是减少数量级 /参数值θ大小.
(2)当我们有许多变量时这个方法非常有效，每一个变量都会对预测产生一点影响.
2.减少变量的数量
(1) 手动选择需要保留的变量（特征）.
(2) 使用模型选择的算法（PCA）.

过拟合：没有足够的样本来约束变量过多的模型
就以多项式理解，x的次数越高，拟合的越好，但相应的预测的能力就可能变差。

正则化

L1正则化
• 权值向量w中各个元素的绝对值之和：
- 将一些重复的没有必要的参数直接缩减为零
L2正则化
• 权值向量w中各个元素的平方和：
- 使θ的每个元素都很少，接近为0，但不会等于0
L1正则化 VS L2正则化
• L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择
• L2正则化可以防止模型过拟合（overfitting）

L0和L1正则化都可以产生稀疏权值矩阵，但L0范数很难优化求解

稀疏矩阵指的是很多元素为0，只有少数元素是非零的矩阵，即得到线性回归的模型大部分的系数都是0

为什么L1正则化容易产生稀疏权值向量

加入正则化的目标函数：
在这里插入图片描述
此时任务是在正则化的约束下求代价函数的最小值的解，令L=λR(w)，二维情况下只有两个权值w¹和w²,此时L=|w¹|+|w²|

图中等值线是代价函数的等值线，方形是L函数的图形。代价等值线与L图形首次相交的地方就是最优解，顶点的值是(w¹,w²) =(0,w²)，所以会有权值等于0，这就是为什么L1正则化可以产生稀疏模型，进而可以用于特征的选择。
正则化前面的系数λ可以控制L图形的大小，λ越小，L的图形越大。

二维平面下L2正则化的函数是个圆，与方形相比没有棱角，因此代价函数与L相交时使得w¹或w²等于0的几率小了许多，这就是L2为什么不具备系数性的原因。

L2为什么可以解决过拟合

拟合过程中通常倾向于让权值尽可能小，最后构造一个所有参数比较小的模型。因为一般认为参数值小的模型比较简单能适应不同的数据集，也在一定的程度上避免过拟合现象。对于一个线性回归方程如参数很大那么只要数据偏移一点点，就会对结果造成很大的影响，但是如果参数足够小，数据偏移的多一点也不会对结果造成什么影响，也就是“抗扰动能力强”

损失函数和正则化项

损失函数
正则化项

岭回归：squared loss + L2
Loss回归：squared loss + L1
逻辑回归：logistic loss + L2
弹性网回归：squared loss + L1 + L2

一、线性回归正则化

正则化线性回归（Regularized Linear Regression ）
代价函数

正是那些高次项导致了过拟合的产生，如果让这些高次项的系数接近0，就能很好的拟合了。
假如有非常多的特征，我们并不知道其中哪些特征要惩罚，就对所有的特征进行惩罚，并且让代价函数最优化的软件来选择这些惩罚的程度。

正则化的代价函数：

正则化的代价函数

未对θ0进行正则化，梯度下降算法分两种情形：

可以看出，正则化线性回归的梯度下降算法的变化在于，每次都在原有算法更新规则的基础上令θ值减少了一个额外的值

二、逻辑回归正则化

正则化逻辑回归—代价函数

正则化逻辑回归—梯度下降

注意：
1.虽然正则化的逻辑回归中的梯度下降和正则化的线性回归中的表达式看起来一样，但由于两者的模型h(x)不同，所以有很大差别。
2.θ0不参与其中的任何一个正则化。

苟冬新

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
回归算法的正则化

正则化：机器学习算法中为防止数据过拟合而采取的“惩罚”措施。欠拟合问题，根本的原因是特征维度过少，导致拟合的函数无法满足训练集，误差较大。欠拟合问题可以通过增加特征维度来解决。过拟合问题，根本的原因则是特征维度过多，导致拟合的函数完美的经过训练集，但是对新数据的预测结果则较差。解决过拟合的方法1.正则化(1)保持所有的特征变量, 但是减少数量级 /参数值θ大小.(2)当我们有许多变量...
复制链接

扫一扫