吴恩达机器学习学习笔记第八章：正则化

最新推荐文章于 2022-04-08 11:08:39 发布

Rei12345678

最新推荐文章于 2022-04-08 11:08:39 发布

阅读量370

点赞数

文章标签：机器学习吴恩达 coursea 学习笔记正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42415485/article/details/81990381

版权

1.过拟合问题

如图所示是线性回归的三种情况：

图一是欠拟合数据点没有全部被（另一种说法这个算法有高偏差）

图二的二次函数来拟合效果很不错

图三用了4次多项式有5个参数但是曲线歪歪扭扭的显得非常的奇葩

我们称为过度拟合以前学术的说法叫这个算法具有高方差

我们拟合这样一个高阶的假设函数他几乎能拟合训练集中所有数据但是变量太多我们没有足够的数据去约束它来获得一个好的假设函数到后面新来的数据的预测过程中可能会导致预测值非常偏离样本值泛化能力很弱

当然对于逻辑回归也是同样对应这三种情况：

总的来说过度拟合会出现在使用过多特征的情况下这时候训练出的假设能很好的拟合训练集所以你的代价函数很接近于0甚至等于0 但是你可能会得到这样的曲线它千方百计的拟合训练集导致他无法泛化到新来的数据上（泛化指的是一个假设模型应用到新样本的能力）用房价例子来说就算无法预测训练集之外新来的房子样本的价格用之前的例子来说

类似的说法同样可以用于逻辑回归

为了解决过拟合我们有两个办法：

为了解决过拟合我们有两个办法：

第一：尽量减少特征的数量其中又有两个思路：

1.我们可以人工检查变量清单并以此决定哪些变量更重要则保留哪些可以舍弃比如房屋长宽可以合二为一成面积，如房子的颜色（假如他不是很有用）就可以直接删了。

2. 后面会讲到模型选择算法这种算法可以自动筛选哪些特征应该保留哪些该删除。这种方法的缺点就是你舍弃特征的同时也舍弃了问题的一些信息。

第二：正则化我们保留所有特征，但是减少量级或参数θ的大小。这样会使得我们的曲线更简单更平滑。

2.代价函数

当特征过多时，我们又很难手工剔除参数，那采用正则化就很舒服了。

我们希望消除θ3 θ4这样高阶项的影响得到右边的二次函数图像

我们不是直接删掉θ3θ4的项而是修改代价函数，我们的目的是最小化代价函数的值，所以加上惩罚项（Penalty Term）后:为了最小化J(θ)，由于惩罚性的存在：如下图取1000，那就要让θ3θ4尽可能小了

人为的在代价函数后面加上两个罚因子，这样函数图像就相当于从蓝色的过拟合到粉红了

参数的值越小，一般曲线就越光滑，也就更简单，更不容易过拟合

一般化后得到正则化的代价函数如下图所示，一般化的意思就是比如有很多特征，我们不知道怼哪几个所以全部怼上再说。（由于θ0的是常数项所以约定俗称不怼θ0）：

其中λ叫正则化参数，λ若过大则会导致欠拟合、梯度下降无法收敛，过小则抑制θj的效果变小即避免过拟合失败

3.线性回归的正则化

做GRADIENT DESCENT时由于我们只惩罚θ1 θ2…… 所以把θ0单独写出来进行操作

不难发现天蓝色就是导数（θj的那一坨也同理）

移项整理后

因为α很小m很大所以粉红括号里可以想成是0.99这样的数所以更新结果就变成了

θj=0.99θj 也就意味正则化后每次迭代θj都往数轴左边走一点点

当然还可以用正规方程来做

（对比之前多变量回归的情况就是多加了个蓝笔）

之前我们说过，如果m≤n(变量个数小于等于特征数)那么不可逆，若使用伪逆函数计算虽然会看到一个有意义的解但最后不会得到很好的假设模型。幸运的是在正则化中，只要正则化参数λ>0那这个矩阵就一定不是奇异矩阵(不可逆矩阵)

4.Logistic回归的正则化

逻辑回归用梯度下降法和线性回归的其实在表面上形式完全一样，只不过因为假设函数的定义不一样所以它的本质、内涵不一样。但是计算过程也是完全一样的。

还有一个用于逻辑回归正则化的方法叫

我们写一个costFunction函数以向量θ作为输入，函数的功能是计算非条件极值，函数会有两个返回值：一个是J(θ)的值另一个是梯度如gradient（0）是对θ0的偏导（若以0开始索引）刚才说了，θ0的偏导正不正则化都是

而θ1以后的偏导是

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习学习笔记第八章：正则化

1.过拟合问题如图所示是线性回归的三种情况：图一是欠拟合数据点没有全部被（另一种说法这个算法有高偏差）图二的二次函数来拟合效果很不错图三用了4次多项式有5个参数但是曲线歪歪扭扭的显得非常的奇葩我们称为过度拟合以前学术的说法叫这个算法具有高方差我们拟合这样一个高阶的假设函数他几乎能拟合训练集中所有数据但是变量太多我们没有足够的数据去约束它来获...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。