机器学习--方差(Variance)与偏差(Bias)的平衡及正则化岭回归

本文介绍了机器学习中的偏差和方差概念,通过打靶类比解释其含义。偏差表示模型的命中程度,方差描述数据的离散程度。在模型训练中,偏差和方差通常是矛盾的,需要找到两者之间的平衡。文章以线性回归和kNN为例,讨论它们的偏差和方差特性,并提出降低方差的策略,包括模型正则化。重点讲解了正则化方法——岭回归,通过调整损失函数并引入超参数α来限制参数大小,防止过拟合。通过实例展示了不同α值对模型预测曲线的影响,说明了岭回归如何平滑曲线,降低方差。
摘要由CSDN通过智能技术生成

 

首先理解一下什么是方差和偏差:类比到打靶,低方差就是每次打靶的点都比较集中在某部分,低偏差就是每次打靶都离目标较远。方差就是描述的离散程度,偏差描述的命中程度。

模型的误差:偏差+方差+不可避免的误差(数据本身的噪音)

偏差+方差和算法模型关系密切。导致偏差:如非线性数据使用线性回归,即欠拟合。导致方差:数据的扰动对模型影响很大,即模型学习过多的噪音数据。

kNN 天生高方差,非参数学习通常都是高方差的算法,因为不对数据假设。

线性回归高偏差算法,参数学习通常都是高偏差算法,对数据具有极强的假设。

大多数ML都是有相应的参数,调整相应的方差 和偏差。

kNN中的k,线性回归使用多项式回归(阶数)。

偏差和方差是矛盾的,互相制约的,降低其中一个另一个提高,所以要达到一个平衡,以找到较好的模型。

算法上主要来自方差,解决高方差手段:

1、降低模型复杂度

2、减少数据维度,降噪

3、增加样本数

4、使用验证集

5、模型正则化

模型正则化(Regularization)

以上是多项式过拟合的情况,途中曲线非常陡峭,造成这种情况的原因是参数(θ)太大,我们可以看一下系数:

模型正则化:限制参数的大小。来解决方差问题  ,怎么来限制呢

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值