【零基础机器学习】机器学习中的正则项(图文详解)


更多代码Gitee主页:https://gitee.com/GZHzzz
博客主页CSDN:https://blog.csdn.net/gzhzzaa

写在前面

  • 在机器学习中我们时常会遇到模型过拟合的问题,这是由于我们所得到的的模型复杂度过大,过于完美地拟合了训练数据,也就导致模型在预测训练数据时效果很好而预测新数据时效果很差。解决过拟合问题的一个典型方法即是: 正 则 化 正则化 !😊
    在这里插入图片描述

损失函数

经验风险

  • 经验风险最小化(empirical risk minimization,ERM)策略认为,经验风险最小的模型就是最优模型。根据这一策略求最优模型即是求解最优问题:

在这里插入图片描述

  • 当样本容量足够大时,经验风险最小化能保证很好的学习效果。 极 大 似 然 估 计 ( m a x i m u m l i k e l i h o o d e s t i m a t i o n ) 极大似然估计(maximum likelihood estimation) maximumlikelihoodestimation就是经验风险最小化的一个例子。当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计
  • 但是当样本容量很小时,经验风险最小化学习的效果就难以保证了,常会出现 过 拟 合 ( o v e r f i t t i n g ) 过拟合(over fitting) overfitting现象

结构风险

  • 结构风险最小化(structural risk minimization,SRM)就是为了防止过拟合而提出的策略,它等价于正则化(regularization)
  • 结构风险是在经验风险上加上表示模型复杂度的正则化项(regularizer)或惩罚项(penalty term):
    在这里插入图片描述
  • 第二项表示了对复杂模型的惩罚λ ≥ 0 是正则化系数,以权衡经验风险和模型复杂度
  • 结构风险小就会迫使经验风险和模型复杂度都小。如:贝叶斯估计中的 最 大 后 验 概 率 估 计 最大后验概率估计 就是结构风险最小化的一个例子。当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的 先 验 概 率 先验概率 表示时,结构风险最小化等价于最大后验概率估计

损失函数可视化

  • 通过最简单的一维线性回归展示损失函数的可视化曲线 :在这里插入图片描述

在这里插入图片描述

  • 训练的目的就是最小化损失函数,图中我们可以看出有多组参数都对应着损失函数最小值,这不免让我们想到到底哪一组是最优的呢?🤔

过拟合

  • 过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测很好,但对未知数据预测很差的现象。比如在吴恩达机器学习课程中的一个多项式拟合的问题,如图:
    在这里插入图片描述
  1. 左侧图像表示欠拟合情况,指模型还未很好地捕捉住数据特性,对数据拟合不好
  2. 右图即是过拟合情况,得益于高次多项式参数复杂,模型能够非常完美地拟合数据点,但是它太过完美了,只关注在了训练数据特性上,没有抓住数据背后真正的趋势/规律,因此对于新出现的数据点预测效果会很差
  3. 中图即是较好的拟合情况,抓住了数据规律,对新数据预测也有较好效果,鲁棒性较好$
  • 如何解决过拟合问题呢?一个方法就是下面将要说的正则化

正则化

  • 如前文所说,正则化是结构风险最小化策略的实现,是在经验风险加上一个正则化项或者惩罚项
  • 正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大,正则化项一般是模型参数向量的范数

L1

在这里插入图片描述

  • 梯度下降求导更新的角度:

相当于每次在更新权重的时候,如果原来的参数值是正的,就减去上图划线的项(符号函数),如果是负的,就加上划线的项,于此一来就相当于每次更新都在减小权重,并且有希望将参数值减小到0,从而产生稀疏解

  • 解空间的角度:
    在这里插入图片描述
    L1惩罚项(参数绝对值的和)的解空间(多边形),与原来损失函数的等值线相交的一点(通常在坐标轴上,导致稀疏解),是带L1惩罚项损失函数的最小值(优化目标)

L1可视化

  • 一维线性回归的损失函数加上L1正则项:
    在这里插入图片描述
  • L1正则项的解空间(多边形):
    在这里插入图片描述
  • 原损失函数与L1正则化项图像的叠加:
    在这里插入图片描述
    加上正则化项之后,此时损失函数就分成了两部分:第1项为原来的MSE函数,第2项为正则化项,最终的结果是这两部分的线性组合
  • 最终的损失函数(顶点处为优化目标):
    在这里插入图片描述
  • 原来我们遇到的问题:损失函数有多组解都对应着最小值,加了正则项之后可以看到,只留下了顶点一组解,这组解就是我们找到的稀疏解能够有效避免过拟合现象

L2

在这里插入图片描述

  • 梯度下降求导更新的角度:

相当于每次在更新权重的时候,将原来的参数乘一个衰减稀疏<1,类似于0.99之类的,所以每次都会越来越靠近0(但不会真的都变成0,因为还有后面的梯度下降)

  • 解空间的角度:
    在这里插入图片描述

相交的一点通常不在坐标轴上(一般不会产生稀疏解),只是解比较接近于0

  • 解空间对比图:

在这里插入图片描述

写在最后

十年磨剑,与君共勉!
更多代码Gitee主页:https://gitee.com/GZHzzz
博客主页CSDN:https://blog.csdn.net/gzhzzaa

  • Fighting!😎

基于pytorch的经典模型基于pytorch的典型智能体模型
强化学习经典论文强化学习经典论文
在这里插入图片描述

while True:
	Go life

在这里插入图片描述

谢谢点赞交流!(❁´◡`❁)

  • 36
    点赞
  • 111
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

北郭zz

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值