吴恩达机器学习——第8章正则化

最新推荐文章于 2021-06-26 19:51:33 发布

丨马平生丨

最新推荐文章于 2021-06-26 19:51:33 发布

阅读量918

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/u013252773/article/details/100338082

版权

机器学习专栏收录该内容

22 篇文章 1 订阅

订阅专栏

第8章正则化

1、目的
- 1.1 过拟合的定义
- 1.2 正则化
2、原理
3、应用到线性回归
- 3.1 梯度下降
- 3.2 正规方程
4、应用到逻辑回归

1、目的

1.1 过拟合的定义

过拟合：指的是模型对训练集数据过度匹配，而对于新数据不能正确预测的情况。

1.2 正则化

正则化是用来解决模型过拟合问题的一种思路。

基本思路是在保留所有特征的基础上，减小参数的大小（参数指的是 $θ$ ）。这样每个特征对于预测结果的权重都会减少。

原因是过拟合是由于多项式对曲线影响过大造成的（多项式指的就是 $x^3,x^4$ 这种，通过减小 $\theta$ 就能降低这些多项式对结果的影响。

与之相对应的另一种优化思路是：把不能帮助我们正确预测结果的特征去掉，剩下的特征都是对预测结果起到关键作用的特征。可以手工去除，也可以通过模型帮我们去除。该方式不是本文的重点。

2、原理

回忆一下线性回归的代价函数:
$J(θ)=\frac{1}{2m}\sum_{i=1}^m(h_θ(x^{i})-y^{i})^2$

正则化的目标是保证 $J (θ)$ 最小的情况下 $θ$ 最小，为了使 $θ$ 变小，我们把代价函数变成如下的形式：
$J(θ)=min_θ\frac{1}{2m}\left[\sum_{i=1}^m(h_θ(x^{i})-y^{i})^2+10000θ_1^2+10000θ_2^2+10000θ_3^2+ ......\right]$
简写为：
$J(θ)=min_θ\frac{1}{2m}\left[\sum_{i=1}^m(h_θ(x^{i})-y^{i})^2+\lambda\sum_{j=1}^nθ_j^2\right]$

可以看到，如果想 $J (θ)$ 最小的情况下θ最小，则 $\lambda$ 就要变大;

当 $\lambda$ 非常大的情况下，θ就只能是0了，则模型就成了一条直线了。

3、应用到线性回归

3.1 梯度下降

线性回归的梯度下降公式为：
repeat{
$θ_0=θ_0-α\frac{1}{m}\sum_{i=1}^m(h_θ(x^{(i)})-y^{(i)})$
$θ_j=θ_j-α\frac{1}{m}\sum_{i=1}^m(h_θ(x^{(i)})-y^{(i)})*x^{(i)}_j$
}

根据第2章的介绍，特征正则化后梯度下降的公式变成了：
repeat{
$θ_0=θ_0-α\frac{1}{m}\sum_{i=1}^m(h_θ(x^{(i)})-y^{(i)})$
$θ_j=θ_j-\left[α\frac{1}{m}\sum_{i=1}^m(h_θ(x^{(i)})-y^{(i)})*x^{(i)}_j+\frac{\lambda}{m}θ_j\right]$
}
等价于：
repeat{
$θ_0=θ_0-α\frac{1}{m}\sum_{i=1}^m(h_θ(x^{(i)})-y^{(i)})$
$θ_j=(1-\frac{\lambda}{m})θ_j-α\frac{1}{m}\sum_{i=1}^m(h_θ(x^{(i)})-y^{(i)})*x^{(i)}_j$
}

由于 $\frac{\lambda}{m}$ 是个正数，则 $1-\frac{\lambda}{m}<1$ ，所以调整后的 $θ_j$ 比之前要小。这样就能得到比之前小的参数 $θ$ .

3.2 正规方程

正规方程的表达式为：

$θ=(X^T*X)^{-1}*X^T*y$

正则化后变成了：

$θ=(X^T*X + \left[\begin{matrix}0&0&0&0&0\\0&1&0&0&0\\0&0&1&0&0\\0&0&0&1&0\\0&0&0&0&1\end{matrix}\right])^{-1}*X^T*y$

注意，新增的加数是一个矩阵，这个矩阵的维度与X有关联，上述表达式只是为了表示方便才写成固定的矩阵；

这个矩阵与单位矩阵只差[1,1]这个坐标，其它的都是一样的。

4、应用到逻辑回归

应用到逻辑回归的方式与线性回归完全一致，这里就不细说了。

丨马平生丨

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习——第8章正则化

正则化1、目的1.1 过拟合1.2 正则化2、原理3、应用到线性回归3.1 梯度下降3.2 正规方程4、应用到逻辑回归1、目的1.1 过拟合过拟合：指的是模型对训练集数据过度匹配，而对于新数据不能正确预测的情况。1.2 正则化正则化是用来解决模型过拟合问题的一种思路。基本思路是在保留所有特征的基础上，减小参数的大小（参数指的是θθθ）。这样每个特征对于预测结果的权重都会减少。减少了就怎...
复制链接

扫一扫