正则化

最新推荐文章于 2019-06-16 11:08:07 发布

sbddhh

最新推荐文章于 2019-06-16 11:08:07 发布

阅读量282

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/a18721019362/article/details/80041993

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. 引言
机器学习中经常会出现两种情况：欠拟合和过拟合。欠拟合问题很好解决，增加模型复杂度就好，真正让人头疼的是过拟合问题，会导致过拟合的原因有很多，也就导致了很难去解决这个问题，这里介绍一种经常被用来解决过拟合的手段：正则化。（关于正则化很推荐看Andrew Ng的Coursera机器学习课，讲的很清楚，这篇博客里面的图也基本是课程里面的讲义截图）

2. 原理介绍
关于欠拟合和过拟合可以用下面这张图解释：
左欠拟合，中正确预测，右过拟合
对于一个上图所示的预测模型，当使用过于简单的预测模型时会导致欠拟合，也称为高偏差。我们增加模型复杂度，使用了一个二次模型，发现模型的拟合效果较好，根据经验，这是一个较好的预测模型。继续增加模型复杂度，这时模型完美的拟合了所有样本点，但是根据感觉，这绝对不是一个好的预测模型，称为过拟合，又叫高方差。
这里写图片描述
上面这张图可以描述刚刚出现的过拟合问题，我们使用了一个过于复杂的四次模型去拟合二次分布的样本，导致虽然完美的拟合了所有样本，但是却没有预测能力。针对这个例子的解决办法很简单，在损失函数后面加上 $\theta_3^2$ ，和 $\theta_4^2$ 两项。由于模型的训练是通过最小化损失函数实现的，所以训练过程就迫使 $\theta_3$ ， $\theta_4$ 接近于0，这就将一个四次模型变成二次模型。不过在实际应用中我们是不知道哪个参数是不需要的，所以我们会为所有参数加上正则化项，如下式：

m i n θ 1 m \sum i = 1 m (h θ (x i) - y i) 2 + λ \sum j = 1 n θ 2 j

$min_\theta\frac1m\sum_{i=1}^m(h_\theta(x^i)-y^i)^2+\lambda\sum_{j=1}^n\theta_j^2$

3. 常见正则化方法
3.1 L1正则
公式如下：

m i n θ 1 m \sum i = 1 m (h θ (x i) - y i) 2 + λ n \sum j = 1 n | θ j |

$min_\theta\frac1m\sum_{i=1}^m(h_\theta(x^i)-y^i)^2+\frac{\lambda}n\sum_{j=1}^n|\theta_j|$
L1正则会使部分参数为0，使参数稀疏化。

3.2 L2正则
公式如下：

m i n θ 1 m \sum i = 1 m (h θ (x i) - y i) 2 + λ 2 n \sum j = 1 n θ 2 j

$min_\theta\frac1m\sum_{i=1}^m(h_\theta(x^i)-y^i)^2+\frac{\lambda}{2n}\sum_{j=1}^n\theta_j^2$
与L1不同的是L2会是参数逼近0，但是不会等于0。

具体L1，L2正则推导可以看这篇博客《机器学习中正则化项L1和L2的直观理解》

sbddhh

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则化

1. 引言机器学习中经常会出现两种情况：欠拟合和过拟合。欠拟合问题很好解决，增加模型复杂度就好，真正让人头疼的是过拟合问题，会导致过拟合的原因有很多，也就导致了很难去解决这个问题，这里介绍一种经常被用来解决过拟合的手段：正则化。（关于正则化很推荐看Andrew Ng的Coursera机器学习课，讲的很清楚，这篇博客里面的图也基本是课程里面的讲义截图）2. 原理介绍关于欠拟合和过拟合可以...
复制链接

扫一扫

专栏目录