BAT机器学习面试6-10题笔记

最新推荐文章于 2021-05-30 11:35:09 发布

Fenta01

最新推荐文章于 2021-05-30 11:35:09 发布

阅读量307

点赞数

分类专栏：刷题大法

刷题大法专栏收录该内容

24 篇文章 0 订阅

订阅专栏

BAT机器学习面试6-10题笔记

6.overfitting怎么解决？

机器学习 ML基础中dropout、regularization、batch normalization
overfitting就是过拟合, 其直观的表现如下图所示，随着训练过程的进行，模型复杂度增加，在training data上的error渐渐减小，但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集, 对训练集外的数据却不work, 这称之为泛化(generalization)性能不好。泛化性能是训练的效果评价中的首要目标，没有良好的泛化，就等于南辕北辙, 一切都是无用功。
数据集扩充,对原有数据进行扩充,加噪声,重采样等操作.但是一般条件都不允许.
在这里插入图片描述
实际训练中，降低过拟合的方法：
正则化(Regularization)：
L2正则化：目标函数中增加所有权重w参数的平方之和, 逼迫所有w尽可能趋向零但不为零. 因为过拟合的时候, 拟合函数需要顾忌每一个点, 最终形成的拟合函数波动很大, 在某些很小的区间里, 函数值的变化很剧烈, 也就是某些w非常大. 为此, L2正则化的加入就惩罚了权重变大的趋势.
L1正则化：目标函数中增加所有权重w参数的绝对值之和, 逼迫更多w为零(也就是变稀疏. L2因为其导数也趋0, 奔向零的速度不如L1给力了). 大家对稀疏规则化趋之若鹜的一个关键原因在于它能实现特征的自动选择。一般来说，xi的大部分元素（也就是特征）都是和最终的输出yi没有关系或者不提供任何信息的，在最小化目标函数的时候考虑xi这些额外的特征，虽然可以获得更小的训练误差，但在预测新的样本时，这些没用的特征权重反而会被考虑，从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命，它会学习地去掉这些无用的特征，也就是把这些特征对应的权重置为0。
随机失活(dropout):
在训练的运行的时候，让神经元以超参数p的概率被激活(也就是1-p的概率被设置为0), 每个w因此随机参与, 使得任意w都不是不可或缺的, 效果类似于数量巨大的模型集成。
在这里插入图片描述
上面公式中Bernoulli函数是为了生成概率r向量，也就是随机生成一个0、1的向量。

代码层面实现让某个神经元以概率p停止工作，其实就是让它的激活函数值以概率p变为0。比如我们某一层网络神经元的个数为1000个，其激活函数输出值为y1、y2、y3、…、y1000，我们dropout比率选择0.4，那么这一层神经元经过dropout后，1000个神经元中会有大约400个的值被置为0。

注意：经过上面屏蔽掉某些神经元，使其激活值为0以后，我们还需要对向量y1……y1000进行缩放，也就是乘以1/(1-p)。如果你在训练的时候，经过置0后，没有对y1……y1000进行缩放（rescale），那么在测试的时候，就需要对权重进行缩放，操作如下。

思考：上面我们介绍了两种方法进行Dropout的缩放，那么Dropout为什么需要进行缩放呢？
因为我们训练的时候会随机的丢弃一些神经元，但是预测的时候就没办法随机丢弃了。如果丢弃一些神经元，这会带来结果不稳定的问题，也就是给定一个测试数据，有时候输出a有时候输出b，结果不稳定，这是实际系统不能接受的，用户可能认为模型预测不准。那么一种”补偿“的方案就是每个神经元的权重都乘以一个p，这样在“总体上”使得测试数据和训练数据是大致一样的。比如一个神经元的输出是x，那么在训练的时候它有p的概率参与训练，(1-p)的概率丢弃，那么它输出的期望是px+(1-p)0=px。因此测试的时候把这个神经元的权重乘以p可以得到同样的期望。

取平均的作用：先回到标准的模型即没有dropout，我们用相同的训练数据去训练5个不同的神经网络，一般会得到5个不同的结果，此时我们可以采用 “5个结果取均值”或者“多数取胜的投票策略”去决定最终结果。例如3个网络判断结果为数字9,那么很有可能真正的结果就是数字9，其它两个网络给出了错误结果。这种“综合起来取平均”的策略通常可以有效防止过拟合问题。因为不同的网络可能产生不同的过拟合，取平均则有可能让一些“相反的”拟合互相抵消。dropout掉不同的隐藏神经元就类似在训练不同的网络，随机删掉一半隐藏神经元导致网络结构已经不同，整个dropout过程就相当于对很多个不同的神经网络取平均。而不同的网络产生不同的过拟合，一些互为“反向”的拟合相互抵消就可以达到整体上减少过拟合。
减少神经元之间复杂的共适应关系：因为dropout程序导致两个神经元不一定每次都在一个dropout网络中出现。这样权值的更新不再依赖于有固定关系的隐含节点的共同作用，阻止了某些特征仅仅在其它特定特征下才有效果的情况。迫使网络去学习更加鲁棒的特征，这些特征在其它的神经元的随机子集中也存在。换句话说假如我们的神经网络是在做出某种预测，它不应该对一些特定的线索片段太过敏感，即使丢失特定的线索，它也应该可以从众多其它线索中学习一些共同的特征。从这个角度看dropout就有点像L1，L2正则，减少权重使得网络对丢失特定神经元连接的鲁棒性提高。

逐层归一化(batch normalization):
这个方法给每层的输出都做一次归一化(网络上相当于加了一个线性变换层), 使得下一层的输入接近高斯分布. 这个方法相当于下一层的w训练时避免了其输入以偏概全, 因而泛化效果非常好.
在这里插入图片描述
好处：
①不仅仅极大提升了训练速度，收敛过程大大加快；②还能增加分类效果，一种解释是这是类似于Dropout的一种防止过拟合的正则化表达方式，所以不用Dropout也能达到相当的效果；③另外调参过程也简单多了，对于初始化要求没那么高，而且可以使用大的学习率等。

提前终止(early stopping)：
理论上可能的局部极小值数量随参数的数量呈指数增长, 到达某个精确的最小值是不良泛化的一个来源. 实践表明, 追求细粒度极小值具有较高的泛化误差。这是直观的，因为我们通常会希望我们的误差函数是平滑的, 精确的最小值处所见相应误差曲面具有高度不规则性, 而我们的泛化要求减少精确度去获得平滑最小值, 所以很多训练方法都提出了提前终止策略. 典型的方法是根据交叉叉验证提前终止: 若每次训练前, 将训练数据划分为若干份, 取一份为测试集, 其他为训练集, 每次训练完立即拿此次选中的测试集自测. 因为每份都有一次机会当测试集, 所以此方法称之为交叉验证. 交叉验证的错误率最小时可以认为泛化性能最好, 这时候训练错误率虽然还在继续下降, 但也得终止继续训练了.
交叉验证:
验证集用来模型的选择,在学习到不同复杂度的模型中,选择对验证集有最小预测误差的模型,而不是训练集.

7.LR和SVM的联系与区别

联系：
1、LR和SVM都可以处理分类问题，且一般都用于处理线性二分类问题（在改进的情况下可以处理多分类问题）
2、两个方法都可以增加不同的正则化项，如l1、l2等等。所以在很多实验中，两种算法的结果是很接近的。
区别：
1、LR是参数模型，SVM是非参数模型。（理解）
还是不清楚（神经网络为啥是非参数学习）
在这里插入图片描述
2、从目标函数来看，区别在于逻辑回归采用的是logistical loss，SVM采用的是hinge loss(合页损失函数)，这两个损失函数的目的都是增加对分类影响较大的数据点的权重，减少与分类关系较小的数据点的权重。
3、SVM的处理方法是只考虑support vectors，也就是和分类最相关的少数点，去学习分类器。而逻辑回归通过非线性映射，大大减小了离分类平面较远的点的权重，相对提升了与分类最相关的数据点的权重。
4、逻辑回归相对来说模型更简单，好理解，特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些，SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算。
5、logic 能做的 svm能做，但可能在准确率上有问题，svm能做的logic有的做不了。

8.了解的核函数

核函数，不仅仅在SVM中使用，他是一个工具，把低维数据映射到高维数据的工具，在这个高维的空间中，数据可以变的更容易分离或更好的结构化。而且，这种映射函数几乎不需要计算（why），所以可以说成是低维空间计算高维空间内积的一个工具。
如下图：
在这里插入图片描述
本来是二维的数据，映射到高维。这里的低维到高维，维数没有一个数量上的标准，可能是无限维到无限维。
核函数诀窍：
如果我们的算法只能根据两个向量之间的内积表示，我们所需要的就是用一些其他合适的空间替换这个内积。这就是"技巧"的地方：无论使用怎样的点积，它都被内核函数替代。核函数表示特征空间中的内积，通常表示为：
$K （ x ， y ） = < φ （ x ）， φ （ y ） >$

线性核：
线性内核是最简单的内核函数。它由内积<x,y>加上可选的常数c给出。使用线性内核的内核算法通常等于它们的非内核对应物，即具有线性内核的KPCA（基于核的主成分分析）与标准PCA（主成分分析）相同。这个核存在的主要目的是使得“映射后空间中的问题”和“映射前空间中的问题”两者在形式上统一起来了(意思是说，咱们有的时候，写代码，或写公式的时候，只要写个模板或通用表达式，然后再代入不同的核，便可以了，于此，便在形式上统一了起来，不用再分别写一个线性的，和一个非线性的)。
表达式： $k(x,y) = x^Ty + c$

多项数核函数：
多项式核是非固定内核，属于全局核函数，允许相距很远的数据点对核函数的值有影响。参数d越大，映射的维度越高。但是过大，易出现过拟合。多项式内核非常适合所有训练数据都归一化的问题。
表达式： $k(x,y) = (αx ^ T y + c) ^d$
可调参数是斜率 $α$ ，常数项 $c$ 和多项式 $d$

高斯核：
高斯核是径向基函数核的一个例子。这个核就是将原始空间映射为无穷维空间的核。不过，如果选得很大的话，高次特征上的权重实际上衰减得非常快，所以实际上（数值上近似一下）相当于一个低维的子空间；反过来，如果选得很小，则可以将任意的数据映射为线性可分——当然，这并不一定是好事，因为随之而来的可能是非常严重的过拟合问题。不过，总的来说，通过调控参数，高斯核实际上具有相当高的灵活性，也是使用最广泛的核函数之一。
表达式：$k(x,y) = exp(-(||x-y||^2)/2)

Sigmoid核函数：
Sigmoid核函数来源于神经网络，被广泛用于深度学习和机器学习中。采用Sigmoid函数作为核函数时，支持向量机实现的就是一种多层感知器神经网络。支持向量机的理论基础（凸二次规划）决定了它最终求得的为全局最优值而不是局部最优值，也保证了它对未知样本的良好泛化能力。
表达式： $k(x,y) = tanh(ax^Ty +c)$

9.（决策树、Random Forest、Booting、Adaboot）GBDT和XGBoost的区别

10. 要用泰勒展开，优势在哪里？

Fenta01

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BAT机器学习面试6-10题笔记

BAT机器学习面试6-10题笔记6.overfitting怎么解决？机器学习 ML基础中dropout、regularization、batch normalizationoverfitting就是过拟合, 其直观的表现如下图所示，随着训练过程的进行，模型复杂度增加，在training data上的error渐渐减小，但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训...
复制链接

扫一扫

专栏目录