【吴恩达机器学习笔记】六、过拟合及正则化_conda中如何添加正则化(2)

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

六、过拟合及正则化

1. 过拟合问题

在开始介绍这节课内容之前,我们先来看一个线性回归的例子。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Mf4W8nIJ-1669683155508)(吴恩达机器学习.assets/image-20211105123753222.png)]

左图我们发现,所用的假设函数是一条直线,所以无法很好拟合数据,这我们称之为欠拟合(高偏差),中图即是最理想的拟合曲线,而右图的曲线就显得十分扭曲,但它经过了所有的数据点,可我们最后还是不能用它去预测新的数据,这我们称之为过拟合(高方差),当然除了线性回归问题,逻辑回归同样可能会出现过拟合的现象。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0qVHwqTb-1669683155511)(吴恩达机器学习.assets/image-20211105124601460.png)]

过拟合(Overfitting)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aXZ6JsNI-1669683155513)(吴恩达机器学习.assets/image-20211105124049027.png)]

这种问题,通常会出现在过量变量但数据过少的情况,J(θ)的值会接近于0,但却无法去预测新样本。

想要解决过拟合问题有下面两种方法:

  • 减少变量的数量

    • 可以人工的去选择一些可以删除的变量。
    • 也可以用之后要讲到的算法模型,去自动筛选变量。缺点:这种方法,可能会导致一些有用变量的丢失,失去了一些有效信息。
  • 正则化(Regularization)

    • 保留所有变量,但是减小量级(magnitude)或者参数θj的大小。优点:这种方法可以很好地确保那些对y的预测有帮助的变量不会丢失。
2. 正则化

正则化(Regularization)

通过减小对结果没什么用的θ值使其值接近于零,从而弱化其对结果的影响,简化函数。

线性回归的正则化

其正则化的代价函数如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PsPvLzVw-1669683155517)(吴恩达机器学习.assets/image-20211105133321077.png)]

在代价函数中表示正则化的是上图的公式中带λ的式子,因为不知道哪个参数会对结果产生影响,所以就交给模型去判断该减小哪个θ值,所以选择都进行减小。其中λ是用来平衡正则化式子与其左边优化式子的关系,而将θ平方是为了防止正负号影响结果。但是如果λ值过大的话,可能会使所有参数都趋于0,那得出的曲线就接近于一条曲线了。

  • 梯度下降

在线性回归中使用正则化时,如果用梯度算法,则其中对J(θ)求θ偏导的式子也会有一点改变,实际上就在θj公式后面加一个(λ/m)θj小式子。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XrGBA05p-1669683155519)(吴恩达机器学习.assets/image-20211105141059080.png)]

​ 我们通过将含θj的项合并,可以得到1-α(λ/m),而这个式子其实之比1小一点点,可能是0.99,这样将0.99×θj每次 就只会缩小θj一点点,后面的式子都跟之前所示一样。

  • 正规方程

在正规方程中用正则化,只需在原来的公式中加上一个λ×一个矩阵即可。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-trWrQAkC-1669683155522)(吴恩达机器学习.assets/image-20211105142243701.png)]

用正则化有一个好处就是可以解决一些矩阵不可逆的问题,因为前面我们讲到,如果样本数量比特征数量还要大时(XTX)-1是不可逆的,但是如果用正则化的话,只要保证λ大于0,就可以保证其中逆矩阵的式子一定可逆。

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**

需要这份系统化资料的朋友,可以戳这里获取

  • 16
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值