吴恩达机器学习笔记（六）正则化

最新推荐文章于 2021-12-06 16:28:41 发布

AngelaOrange

最新推荐文章于 2021-12-06 16:28:41 发布

阅读量330

点赞数

分类专栏：机器学习笔记文章标签：吴恩达机器学习正则化笔记

本文链接：https://blog.csdn.net/qq_35175666/article/details/84404498

版权

机器学习笔记专栏收录该内容

22 篇文章 5 订阅

订阅专栏

吴恩达机器学习笔记（六）正则化

一、过拟合问题(Overfitting)
二、代价函数(Cost Function)
三、线性回归的正则化(Regularized Linear Regression)
四、Logistic回归的正则化(Regularized Logistic Regression)

本文章是笔者根据Coursera上吴恩达教授的机器学习课程来整理的笔记。如果是初学者，建议大家首先观看吴恩达教授的课程视频，然后再来看博文的要点总结。两者一起食用，效果更佳。

一、过拟合问题(Overfitting)

下图的线性回归模型中，最左侧是欠拟合，中间是拟合效果良好，最右侧是过拟合。

下图的Logistic回归模型中，最左侧是欠拟合，中间是拟合效果良好，最右侧是过拟合。

解决过拟合问题的两种方法：
（1）减少特征的数量。可以通过回收懂筛选特征来完成，也可以通过模型选择算法来完成。模型选择算法将在后续为大家介绍。
（2）正则化。保留所有的特征，但是减少参数 $\theta$ 的量级或值。当我们有很多特征，每一种特征都对预测结果有一点贡献，不舍得舍弃掉任何一个特征时，正则化会是一种很有效的方法。

二、代价函数(Cost Function)

直观想法：如果给 $\theta_3$ 和 $\theta_4$ 一个很大的惩罚项，如1000倍的，把这个惩罚项加入代价函数中，那么就会使 $\theta_3$ 和 $\theta_4$ 趋于0。从而变回二次函数，避免过拟合的问题。

让参数 $\theta$ 拥有较小的值，可以让模型更简单，降低过拟合的可能性。但是当拿到100个特征的时候，我们并不知道哪个特征是无用的，不知道让哪个特征趋于0。因此，把除 $\theta_0$ 外的所有 $\theta_j(j=1,2,3......n)$ 参数平方相加，再乘以正则化因子 $\lambda$ ，叫做正则化项。把正则化项加入代价函数中。
注意： $\theta_0$ 不做惩罚。

可以观察到，加入了正则化项后，原本过拟合的扭曲的函数变得更平滑一些了。

如果 $\lambda$ 选取过大，会导致除 $\theta_0$ 外的所有 $\theta$ 值趋于0，函数变成了一条直线。
选取合适的 $\lambda$ 很重要，在后续课程讲到多重选择时，会为大家介绍自动选择合适 $\lambda$ 的方法。

三、线性回归的正则化(Regularized Linear Regression)

线性回归的正则化代价函数：

使用梯度下降法最小化代价函数：（与无正则化项的式子相比，增加了紫红洋葱色的部分）
把含有 $\theta_j$ 的项合并到一起，转换成了另外一种形式，直观上可以理解为，每次迭代都为 $\theta_j$ 乘上一个比1稍小的数，再减去与无正则化项时相同的偏导数项。（因为 $\alpha$ 一般很小， $m$ 一般很大，所以( $1-\alpha\lambda/m$ )这一项比1稍小，不会小很多）
详细公式如下图：

使用正规方程法最小化代价函数：
对于有m个样本，n个特征的数据集：
在无正则化项的线性回归的正则化解法公式的基础上，增加了下图中蓝色的部分， $\lambda$ 诚意一个 (n+1)x(n+1)维度的矩阵。该矩阵的左上角的第一个元素是0，对角线上的其余n个元素是1，不在对角线上的元素均为0。详细的数学证明很复杂，这里没有必要介绍。
如下图，当特征数量n=2时，矩阵是3x3维度的。

正则化还可以解决矩阵的不可逆性问题。
之前讲到过，当样本数m小于特征数n时， $X^TX$ 矩阵不可逆，之前给出的方案是通过octave中的pinv函数求出伪逆。但是伪逆可能不是一个非常好的模型。
通过数学推导可以证明 $X^TX$ 加上正则化项后得到的新矩阵，一定是可逆的。因此，当使用正规方程法遇到矩阵不可逆时，可以通过加上正则化项来解决。

四、Logistic回归的正则化(Regularized Logistic Regression)

正则化Logistic回归的代价函数：（与无正则化项的式子相比，增加了蓝色的部分）

使用梯度下降法最小化代价函数：（这个公式与正则化线性回归的梯度下降法很像，但注意这是不同的算法，因为假设函数 $h_\theta(x)$ 的含义是不一样的。Logistic回归增加了sigmoid处理）

使用更高级的优化算法来最小化代价函数：
直接调用Octave中的函数。
输入代价函数和各个偏导数的计算公式，函数返回的结果就是是代价函数最小的 $\theta$ 的取值。

AngelaOrange

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习笔记（六）正则化

吴恩达机器学习笔记（五）正则化本文章是笔者根据Coursera上吴恩达教授的机器学习课程来整理的笔记。如果是初学者，建议大家首先观看吴恩达教授的课程视频，然后再来看博文的要点总结。两者一起食用，效果更佳。...
复制链接

扫一扫

专栏目录