百题突击2:1.在模型评估过程中,过拟合和欠拟合具体指什么现象 2.降低过拟合和欠拟合的方法 3.L1和L2正则先验分别服从什么分布 4.对于树形结构为什么不需要归一化?

1.在模型评估过程中,过拟合和欠拟合具体指什么现象

过拟合(overfitting)指的是模型在训练数据是表现非常好,但是在验证集上表现特别差。
欠拟合(underfitting)指的是是模型在训练数据和验证集上表现都比较差。

在这里插入图片描述

2.降低过拟合和欠拟合的方法

在这里插入图片描述

降低过拟合的方法:

  1. 减少特征的数量,你可以选择一下那些特征要使用,那些要丢弃,防止用太多特征。你也可以使用模型选择算法去减少特征的数量
  2. 正则化。保持所有的特征,但是减少参数的幅度,当我们有特别多的有用的特征的时候,正则化是一个非常好的选择。
  3. 其他的方法,例如增加数据量,不一定可以解决。核心问题是模型本身的问题,而不是数据的问题。

降低“欠拟合”的方法:

  1. 增加模型的复杂度,简单模型学习能力差,通过增加模型复杂度可以使模型有更强的拟合能力。eg:在线性模型中加高次项,在神经网络中增加网络层数或神经元个数。
  2. 减小正则化系数。他本来是用来防止过拟合的,但当模型出现欠拟合,需要有针对性的减小正则化
  3. 添加新的特征,当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合,挖掘出新的特征可以有好的效果。

模型处于过拟合还是欠拟合,可以通过画出误差趋势图来观察。若模型在训练集与测试集上误差均很大,则说明模型的 Bias 很大,此时需要想办法处理 under-fitting ;若是训练误差与测试误差之间有个很大的 Gap ,则说明模型的 Variance 很大,这时需要想办法处理 over-fitting。

在这里插入图片描述
般在模型效果差的第一个想法是增多数据,其实增多数据并不一定会有更好的结果,因为欠拟合时增多数据往往导致效果更差,而过拟合时增多数据会导致 Gap 的减小,效果不会好太多,多以当模型效果很差时,应该检查模型是否处于欠拟合或者过拟合的状态,而不要一味的增多数据量,关于过拟合与欠拟合,这里给出几个解决方法。

https://zhuanlan.zhihu.com/p/29707029

3.L1和L2正则先验分别服从什么分布

L1正则化和L2正则化原理类似,二者的作用却有所不同。
(1) L1正则项会产生稀疏解。
(2) L2正则项会产生比较小的解。

L1是拉普拉斯分布,L2是高斯分布。
引用自:@齐同学
先验就是优化的起跑线, 有先验的好处就是可以在较小的数据集中有良好的泛化性能,当然这是在先验分布是接近真实分布的情况下得到的了,从信息论的角度看,向系统加入了正确先验这个信息,肯定会提高系统的性能。对参数引入高斯正态先验分布相当于L2正则化。

https://zhuanlan.zhihu.com/p/65094972
Laplace(拉普拉斯)先验与L1正则化

机器学习中正则化项L1和L2的直观理解

f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} f(x)=σ2π 1e2σ2(xμ)2
在这里插入图片描述

f ( x ∣ μ , b ) = 1 2 b exp ⁡ ( − ∣ x − μ ∣ b ) f(x \mid \mu, b)=\frac{1}{2 b} \exp \left(-\frac{|x-\mu|}{b}\right) f(xμ,b)=2b1exp(bxμ)
在这里插入图片描述

4.对于树形结构为什么不需要归一化?

因为数值缩放不影响分裂点位置,对树模型的结构不造成影响。
按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点就不会有不同。

而且,树模型是不能进行梯度下降的,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,因此树模型是阶跃的,阶跃点是不可导的,并且求导没意义,也就不需要归一化。所以树模型(回归树)寻找最优点是通过寻找最优分裂点完成的.

既然树形结构(如决策树、RF)不需要归一化,那为何非树形结构比如Adaboost、SVM、LR、Knn、KMeans之类则需要归一化呢?

对于线性模型,特征值差别很大时,比如说LR,我有两个特征,一个是(0,1)的,一个是(0,10000)的,运用梯度下降的时候,损失等高线是椭圆形,需要进行多次迭代才能到达最优点.但是如果进行了归一化,那么等高线就是圆形的,促使SGD往原点迭代,从而导致需要的迭代次数较少。

5. 数据不平衡

(1)数据不平衡是分类问题当中不同类别样本量不同,或差异较大,其会对模型对不同类的预测能力造成偏斜;
(2)如何解决?
A,对多样本进行欠采样或者少样本进行过采样,形成样本均衡的训练样本;
B,视采用的模型特点,采用MCMC抽样,或者添加随机噪声的方式,产生更多的样本;
C,直接就按照样本类别比例原样采样模型,只不过在模型评价阶段采用Kappa一致性等指标,考虑样本本身的无信息率对预测性能的影响,进而评价模型的拟合预测性能;
D,直接使用对类别不敏感的模型,如一些概率模型,其更关注的是样本的分布特征;如距离判别分析等模型,基于单类即可构建边界;
总之,试问题和所要采用的模型特点进行具体处理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MrCharles

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值