百题突击2:1.在模型评估过程中，过拟合和欠拟合具体指什么现象 2.降低过拟合和欠拟合的方法 3.L1和L2正则先验分别服从什么分布 4.对于树形结构为什么不需要归一化？

最新推荐文章于 2022-01-30 10:05:43 发布

MrCharles

最新推荐文章于 2022-01-30 10:05:43 发布

阅读量1k

点赞数

分类专栏：琐碎记录

本文链接：https://blog.csdn.net/MrCharles/article/details/115512486

版权

琐碎记录专栏收录该内容

50 篇文章 6 订阅

订阅专栏

文章目录

1.在模型评估过程中，过拟合和欠拟合具体指什么现象
2.降低过拟合和欠拟合的方法
3.L1和L2正则先验分别服从什么分布
4.对于树形结构为什么不需要归一化？
5. 数据不平衡

1.在模型评估过程中，过拟合和欠拟合具体指什么现象

过拟合（overfitting）指的是模型在训练数据是表现非常好，但是在验证集上表现特别差。
欠拟合（underfitting）指的是是模型在训练数据和验证集上表现都比较差。

在这里插入图片描述

2.降低过拟合和欠拟合的方法

在这里插入图片描述

降低过拟合的方法：

减少特征的数量，你可以选择一下那些特征要使用，那些要丢弃，防止用太多特征。你也可以使用模型选择算法去减少特征的数量
正则化。保持所有的特征，但是减少参数的幅度，当我们有特别多的有用的特征的时候，正则化是一个非常好的选择。
其他的方法，例如增加数据量，不一定可以解决。核心问题是模型本身的问题，而不是数据的问题。

降低“欠拟合”的方法：

增加模型的复杂度，简单模型学习能力差，通过增加模型复杂度可以使模型有更强的拟合能力。eg：在线性模型中加高次项，在神经网络中增加网络层数或神经元个数。
减小正则化系数。他本来是用来防止过拟合的，但当模型出现欠拟合，需要有针对性的减小正则化
添加新的特征，当特征不足或者现有特征与样本标签的相关性不强时，模型容易出现欠拟合，挖掘出新的特征可以有好的效果。

模型处于过拟合还是欠拟合，可以通过画出误差趋势图来观察。若模型在训练集与测试集上误差均很大，则说明模型的 Bias 很大，此时需要想办法处理 under-fitting ；若是训练误差与测试误差之间有个很大的 Gap ，则说明模型的 Variance 很大，这时需要想办法处理 over-fitting。

在这里插入图片描述
般在模型效果差的第一个想法是增多数据，其实增多数据并不一定会有更好的结果，因为欠拟合时增多数据往往导致效果更差，而过拟合时增多数据会导致 Gap 的减小，效果不会好太多，多以当模型效果很差时，应该检查模型是否处于欠拟合或者过拟合的状态，而不要一味的增多数据量，关于过拟合与欠拟合，这里给出几个解决方法。

https://zhuanlan.zhihu.com/p/29707029

3.L1和L2正则先验分别服从什么分布

L1正则化和L2正则化原理类似，二者的作用却有所不同。
（1） L1正则项会产生稀疏解。
（2） L2正则项会产生比较小的解。

L1是拉普拉斯分布，L2是高斯分布。
引用自：@齐同学
先验就是优化的起跑线, 有先验的好处就是可以在较小的数据集中有良好的泛化性能，当然这是在先验分布是接近真实分布的情况下得到的了，从信息论的角度看，向系统加入了正确先验这个信息，肯定会提高系统的性能。对参数引入高斯正态先验分布相当于L2正则化。

https://zhuanlan.zhihu.com/p/65094972
Laplace（拉普拉斯）先验与L1正则化

机器学习中正则化项L1和L2的直观理解

$f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}$
在这里插入图片描述

$\mid \mu, b)=\frac{1}{2 b} \exp \left(-\frac{|x-\mu|}{b}\right)$
在这里插入图片描述

4.对于树形结构为什么不需要归一化？

因为数值缩放不影响分裂点位置，对树模型的结构不造成影响。
按照特征值进行排序的，排序的顺序不变，那么所属的分支以及分裂点就不会有不同。

而且，树模型是不能进行梯度下降的，因为构建树模型（回归树）寻找最优点时是通过寻找最优分裂点完成的，因此树模型是阶跃的，阶跃点是不可导的，并且求导没意义，也就不需要归一化。所以树模型（回归树）寻找最优点是通过寻找最优分裂点完成的.

既然树形结构（如决策树、RF）不需要归一化，那为何非树形结构比如Adaboost、SVM、LR、Knn、KMeans之类则需要归一化呢？

对于线性模型，特征值差别很大时，比如说LR，我有两个特征，一个是(0,1)的，一个是(0,10000)的，运用梯度下降的时候，损失等高线是椭圆形，需要进行多次迭代才能到达最优点.但是如果进行了归一化，那么等高线就是圆形的，促使SGD往原点迭代，从而导致需要的迭代次数较少。

5. 数据不平衡

（1）数据不平衡是分类问题当中不同类别样本量不同，或差异较大，其会对模型对不同类的预测能力造成偏斜；
（2）如何解决？
A，对多样本进行欠采样或者少样本进行过采样，形成样本均衡的训练样本；
B，视采用的模型特点，采用MCMC抽样，或者添加随机噪声的方式，产生更多的样本；
C，直接就按照样本类别比例原样采样模型，只不过在模型评价阶段采用Kappa一致性等指标，考虑样本本身的无信息率对预测性能的影响，进而评价模型的拟合预测性能；
D，直接使用对类别不敏感的模型，如一些概率模型，其更关注的是样本的分布特征；如距离判别分析等模型，基于单类即可构建边界；
总之，试问题和所要采用的模型特点进行具体处理。