过拟合和欠拟合_NG-欠拟合、过拟合笔记汇总

2a4a8f86538c2d13c26f7700c04a9c5b.png

1、欠拟合、过拟合

图中第三个是一个包含5阶多项式模型,对训练数据差点完美拟合。

eb877a1d59cb58d1c433e2d91a76ed5a.png

模型一没有非常好的拟合训练数据,在训练数据以及在测量数据上都存在较大误差。这样的情况称之欠拟合(underfitting)。

模型二对训练数据拟合的非常不错,可是在训练数据上的精确度并不理想。这样的对训练数据拟合较好,而在测试数据模型精确度较低,称之为过拟合(overfitting)

2、局部加权线性回归(locally weighted linear regression,LWR)

从上面欠拟合和过拟合的样例中我们能够体会到,在回归预测模型中,预测模型的精确度特别依赖于特征的选择,特征选择不合适,往往会导致预测结果的天差地别,局部加权线性回归非常好的攻克了问题,它的预测行能不太依赖选择的特征,又能非常好的避免欠拟合和过拟合的风险。

在理解局部加权线性回归前,先回顾一个线性回归。

线性回归的损失函数把训练数据中的样本看作平等的,并没有权重的概念。

d1b3623bb40dfbf24b42f9773cc2c5c8.png

而局部加权线性回归,在构造损失函数时增加权重w,对距离预测点较近的训练样本给以较高的权重,距离预测点较远的训练样本给较小的权重。权重的取值范围是(0,1)。

局部加权线性回归的主要思想是:

a0d4bd52fde406e84b8ff2e2a1ed4cfb.png

当中如果权重w(i)的公式:

8eae06e4ba6371caa16a3c604cbeaf8b.png

公式中权重大小取决于预测点x于训练样本X_i的距离,假设|X_i - X|较小,那么取值接近于1,反之接近0.参数T称为bandwidth,用于控制权重的变化幅度。

局部加权线性回归是非参数学习算法,损失数随着预测值的不同而不同,这样θ无法事先确定。每次预測时都须要扫描全部数据又一次计算θ,所以计算量比較大。

3、原因分析

(1)模型不能很好拟合数据的原因:

  • 训练数据不具有代表性。训练样本只是从现实世界中收集的样本,只代表了现实的一部分,因此即使模型完全符合训练数据,也不能很好地去预测未知数据;
  • 收集的数据中包含噪声和误差。即使模型与数据拟合吻合,也会错误地捕捉到不期待的噪音和误差,最终导致在预测未来数据的时候存在偏差;

(2)欠拟合的原因:

  • 模型对于数据而言,太过简单,无法捕捉数据中的隐藏关系;
  • 为了解决这一问题,需要找一个能够更好拟合模型的复杂算法。

(3)过拟合的原因:

  • 模型过于复杂,学习到了数据中不无关紧要的东西,把一些无关的东西也学习到了;
  • 为了解决这一问题,可以尝试另一种更简单的模型;或者更常用的是,使用生成过拟合的原始算法,但在算法中增加了正则化项,即对过于复杂的模型进行附加处理,从而引导算法在拟合数据的同时生成一个不太复杂的模型;

4、怎样判断过拟合和欠拟合?

  • 如果模型在训练集上的拟合效果非常好,在测试集中的拟合效果却很差,这说明模型过拟合;
  • 如果模型在训练集拟合效果很差(顺理成章地在测试集上的拟合效果很差),说明模型欠拟合。

5、如何解决过拟合和欠拟合?

(1)防止过拟合的方法:

  • 正则化(Regularization):L1正则化和L2正则化;在原目标代价函数中增加惩罚项,对复杂度高的模型进行“惩罚”。

模型的复杂度可用VC维来衡量。通常情况下,模型VC维与系数w的个数成线性关系:即w数量越多,VC维越大,模型越复杂。因此,为了限制模型的复杂度,很自然的思路是减少系数w的个数,即让w向量中的一些元素为0或者说限制w中非零元素的个数;

故可以在原优化问题中加入一个约束条件:

3cc65f3a46617614da708f696e8c8ca2.png

||.||0范数表示向量中非零元素的个数。为了方便求解,可是适当放松下条件,不严格要求某些权重w为0,而是要求权重w接近于0,即尽量小。从而用L1、L2范数来近似L0范数,即:

2be2ede32d2d7bec9b2ef62dcea0d69e.png

使用L2范数时,为方便后续处理,可对||w||2进行平方处理,同时调整C的取值。

  • 数据增强:增加样本量;
  • dropout;
  • early stop:提前终止;

6、l1和l2正则有什么区别?

第一,L1正则化等价于在原优化目标函数中增加约束条件

3fbb99718913f039f93c255ec1cf2b4f.png

L2正则化等价于在原优化目标函数中增加约束条件

199923ab9ee45d02c5c1eed0493177bd.png

第二,L1正则化会趋向于产生少量的特征,而其他特征都是0,L2正则化会选择更多的特征,这些特征都会趋向于0;

7、L1损失函数、L2损失函数的特点

  • L1范数损失函数,也称为最小绝对偏差(LAD),最小绝对误差(LAE),等于把目标值与估计值的绝对差值的总和最小化;

b35fdabcbbe6ff105267926520cfd82d.png
  • L2范数损失函数,也被称为最小平方误差(LSE)。等于把目标值与估计值的差值的平方和最小化。

241d5eb1affe6ffb8978e0486e35be1a.png

注:其中某些概念有参考其他博主回答,时间太久了找不到出处,入侵删。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值