吴恩达机器学习笔记——正则化_吴恩达l1正则化-CSDN博客

本文链接：https://blog.csdn.net/weixin_39714797/article/details/86935791

是对应网易云课程吴恩达机器学习第八章的笔记。

目前我们已经学习了线性回归和逻辑回归，过度拟合将影响这些算法的发挥。

欠拟合：具有高偏差，如在线性回归中执拗的使用一条直线来拟合数据集。
过度拟合：扭曲的线，如线性回归中上下波动、逻辑回归中“处心积虑”的找到一个边界分开所有的数据，具有高方差，能拟合所有的数据，参数过多没有足够数据很好的拟合。代价函数为0，无法“泛化”。都不是一个很好的模型。

此时可以：

“更简单”的模型：修改代价函数，当给它加上一些参数们的惩罚项时，考虑到尽量得到最小的惩罚函数值，参数会尽量趋近于0，此时也就意味着有更多的假设函数项被取消，函数变得简单，函数图像变得平滑，不容易过拟合。也即，当参数都尽量小时，可以使得函数图像尽量平滑，从而尽量避免过拟合。
当有n个特征时，我们实际上有 $\Theta _{0}$ 开始的n+1个参数，但当加入惩罚项时，我们从 $\Theta _{1}$ 开始进行正则化，这是约定俗成的。
在原来的cost函数后面加上一个求和，称为正则化函数，为 $\lambda \sum_{j=1}^{n}\Theta _{j}^{2}$ ，其中 $\lambda$ 称为正则化参数，它达到了在前面一项努力拟合训练集和后一项努力使得参数最小两者之间的合理平衡，从而保持模型相对简单，避免过拟合。
$\lambda$ 的设置过大：对参数的惩罚程度过大，参数都会趋近于0，相当于用一条直线去拟合数据，偏见太强，偏差太高。简单将y等同于 $\Theta _{0}$ ，欠拟合。

梯度下降法：由于惩罚对象通常不包含 $\Theta _{0}$ ，故梯度下降的repeat内我们将 $\Theta _{0}$ 单独分离出来，针对修改后的代价函数讨论后面的项的梯度下降变化的新计算方式。对 $\Theta _{j}$ 的计算公式稍微变化，得到一个特殊项 $1-\alpha \frac{\lambda }{m}$ ，通常学习率很小，m很大所以该项略小于1，如0.99 $\Theta _{j}$ ，该项使得 $\Theta _{j}$ 新值更向0靠近了一些，之后的更新操作和之前相同。

正规方程法：加入正则化之前 $\Theta =(X^{T}X)^{-1}X^{T}y$ ，考虑到正则化思想后，在-1次项内部增加一个 $\lambda$ 乘类似 $\begin{bmatrix} 0 0 0 0 0\\ 0 1 0 00 \\ 0 0 1 00 \\ 0 0 0 10 \\ 0 0 0 01 \end{bmatrix}$ 的（n+1*n+1）阶，n为特征数）对角首个元素为0，第二个元素为1的矩阵。此时，得到的 $\theta$ 向量就是正则化下的正规方程法所求得的使得代价函数最小的值。