机器学习从零开始系列【第五话】过拟合与正则化

最新推荐文章于 2024-03-16 20:30:52 发布

JintuZheng

最新推荐文章于 2024-03-16 20:30:52 发布

阅读量236

点赞数

分类专栏： CV方向杂记

本文链接：https://blog.csdn.net/rizero/article/details/104147491

版权

CV方向杂记专栏收录该内容

17 篇文章 5 订阅

订阅专栏

什么是过拟合 (Overfitting)

来看三张图：分别是【Underfit (High bias)】【Pretty well】【Overfitting】

如果有太多特征features会导致它想法设法去适应我们的训练集，甚至会出现cost=0或者很接近0的情况。
如果我们想摆脱这种overfitting的状况，就必须简化Hypothesis的模型，对后面无关的x3，x4进行一定的惩罚。

在这里插入图片描述
我们对损失函数进行一定的改造，在后面加上 $1000*{\theta_3}^2+1000*{\theta_4}^2$ ，这样一来可以让 ${\theta_3}$ 和 ${\theta_4}$ 的值变得非常小。

但在实际上操作中，我们并不知道谁的相关性比较大谁比较小，这时候，我们就需要正则化来控制这个度了。

正则化 (Regularization)

我们对之前的损失函数进行改造，引入一个正则化参数 $\lambda$ 。
我们在原有的损失函数上面增加：
$\lambda\sum_{j=1}^n\theta_j^2$
最新的损失函数变成：
$J(\theta)=\frac{1}{2m} [\sum^m_{i=1}(h_{\theta}(x)-y)^2+\lambda\sum_{j=1}^n\theta_j^2]$
$\lambda$ 起到两个作用：

让 Hypothesis 更好的拟合
让参数尽量的小

$\lambda$ 越大，结果参数越小，所以 $\lambda$ 不能取得过大，导致除了 $\theta_0$ 外的参数都很小，趋近于0的话就变成一条扁平的直线了。
too min

在梯度迭代中体会正则化的意义

我们之前的梯度迭代公式：

$\theta_j:=\theta_j-\alpha\frac{\partial J(\theta_0,\theta_1,\theta_2,...,\theta_n)}{\partial\theta_j}$

使用正则化之后：
$\theta_j:=\theta_j(1-\alpha\frac{\lambda}{m})-\alpha\frac{\partial J(\theta_0,\theta_1,\theta_2,...,\theta_n)}{\partial\theta_j}$
我们已知 $1-\alpha\frac{\lambda}{m} \leq 1$ ，所以它的意义就相当于： $\theta_j*0.95$ ，（假如是0.95），大概这样的放缩作用，这样的好处是能让 $\theta$ 在梯度变化中能够取到更多可能的数值。

正则方程解法中的正则化

Set $\frac{\partial J(\theta_0,\theta_1,\theta_2,...,\theta_n)}{\partial\theta_j}=0$ to solve $\theta$
$\theta=(X^TX)X^TY$
使用正则化之后：
$\theta=(X^TX+\lambda\begin{bmatrix} 0 & \cdots & 0 \\ \vdots & 1 & \vdots \\ 0 & \cdots & 1 \end{bmatrix} )X^TY$
除了对角线（除第一个是0外）是1，其余都是0，矩阵满足 $R^{n*n}$

分类问题（逻辑回归 Logistic regression）中的正则化

logistic

JintuZheng

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习从零开始系列【第五话】过拟合与正则化

什么是过拟合 (Overfitting)来看三张图：分别是【Underfit (High bias)】【Pretty well】【Overfitting】如果有太多特征features会导致它想法设法去适应我们的训练集，甚至会出现cost=0或者很接近0的情况。如果我们想摆脱这种overfitting的状况，就必须简化Hypothesis的模型，对后面无关的x3，x4进行一定的惩罚。...
复制链接

扫一扫

专栏目录