吴恩达学习笔记——七、正则化

最新推荐文章于 2023-05-11 12:33:18 发布

天天152

最新推荐文章于 2023-05-11 12:33:18 发布

阅读量190

点赞数

分类专栏：机器学习 # 吴恩达机器学习

本文链接：https://blog.csdn.net/qq_44082148/article/details/104347598

版权

机器学习同时被 2 个专栏收录

22 篇文章 0 订阅

订阅专栏

吴恩达机器学习

11 篇文章 0 订阅

订阅专栏

七、正则化

7.1 过拟合的问题（over-fitting）

拟合有三种情况

欠拟合
just right
过拟合（high variance）
这会导致训练出的模型无法用于其他的数据

问题是，如果我们发现了过拟合问题，应该如何处理？

丢弃一些不能帮助我们正确预测的特征。
- 手工选择保留哪些特征
- 使用一些模型选择的算法来帮忙（例如PCA）
正则化。保留所有的特征，但是减少参数的大小（magnitude）。

7.1.1 特征映射

在这里插入图片描述
通过组合的方式将两个或多个系数转为多个各种阶数的系数

如上图是power = 6 的例子

7.2 代价函数

上面的回归问题中如果我们的模型是：
wps2
我们可以从之前的事例中看出，正是那些高次项导致了过拟合的产生，所以如果我们能让这些高次项的系数接近于0的话，我们就能很好的拟合了。

所以我们要做的就是在一定程度上减小这些高次参数的值，这就是正则化的基本方法。

也就是将cost function替换成下面这一个

$J\left( \theta \right)=\frac{1}{2m}[\sum\limits_{i=1}^{m}{{{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})}^{2}}+\lambda \sum\limits_{j=1}^{n}{\theta_{j}^{2}}]}$

以使得过拟合问题得到解决
1580917137232
对于正则化，我们要取一个合理的 $\lambda$ 的值

7.3 正则化线性回归

正则化线性回归的代价函数为：

$J\left( \theta \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{[({{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})}^{2}}+\lambda \sum\limits_{j=1}^{n}{\theta _{j}^{2}})]}$

如果我们要使用梯度下降法令这个代价函数最小化，因为我们未对进行正则化，所以梯度下降算法将分两种情形：

$R e p e a t$ $u n t i l$ $c o n v e r g e n c e$ {

${\theta_0}:={\theta_0}-a\frac{1}{m}\sum\limits_{i=1}^{m}{(({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{0}^{(i)}})$

${\theta_j}:={\theta_j}-a[\frac{1}{m}\sum\limits_{i=1}^{m}{(({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{j}^{\left( i \right)}}+\frac{\lambda }{m}{\theta_j}]$

$f o r$ $j = 1, 2, . . . n$

}

对上面的算法中$ j=1,2,…,n$ 时的更新式子进行调整可得：

${\theta_j}:={\theta_j}(1-a\frac{\lambda }{m})-a\frac{1}{m}\sum\limits_{i=1}^{m}{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{j}^{\left( i \right)}}$

同样也可以利用正规方程来求解正则化线性回归模型，方法如下所示：
1580976069023
图中的矩阵尺寸为 $(n + 1) * (n + 1)$

而且这样计算通过数学方法可以证明括号内的部分是可逆的

7.4 正则化的逻辑回归模型

自己计算导数同样对于逻辑回归，我们也给代价函数增加一个正则化的表达式，得到代价函数：

$J\left( \theta \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}+\frac{\lambda }{2m}\sum\limits_{j=1}^{n}{\theta _{j}^{2}}$

Python代码：

import numpy as np

def costReg(theta, X, y, learningRate):
    theta = np.matrix(theta)
    X = np.matrix(X)
    y = np.matrix(y)
    first = np.multiply(-y, np.log(sigmoid(X*theta.T)))
    second = np.multiply((1 - y), np.log(1 - sigmoid(X*theta.T)))
    reg = (learningRate / (2 * len(X))* np.sum(np.power(theta[:,1:theta.shape[1]],2))
    return np.sum(first - second) / (len(X)) + reg

要最小化该代价函数，通过求导，得出梯度下降算法为：

$R e p e a t$ $u n t i l$ $c o n v e r g e n c e$ {

${\theta_0}:={\theta_0}-a\frac{1}{m}\sum\limits_{i=1}^{m}{(({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{0}^{(i)}})$

${\theta_j}:={\theta_j}-a[\frac{1}{m}\sum\limits_{i=1}^{m}{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{j}^{\left( i \right)}}+\frac{\lambda }{m}{\theta_j}]$