Machine Learning
小关_同学
这个作者很懒,什么都没留下…
展开
-
【面试必备】之《样本不平衡》
训练样本不平衡(1) 数据层面:上采样和下采样上采样是指增加少样本类别的样本数量,如随机过采样、SMOTE多采样但是这样相当于在训练集中添加了噪声,从而导致模型过拟合下采样是指通过对多样本类别的样本进行有放回的随机抽样,从而与少样本类别的样本数量取得平衡。但这样做就丢掉了一部分原始样本,从而导致模型过拟合。(2) 算法层面选择对数据倾斜不敏感的算法:如随机森林调整样本权重:增加损失函数中少样本类别中样本的权重,有点像adaboost(3) 损失函数层面增加损失函数中少样本类别中样本的权值.原创 2020-06-16 15:08:16 · 182 阅读 · 0 评论 -
【面试必备】之《Batch Normalization》
BN解决了梯度消失的问题,使得深度神经网络可以收敛,但并不能保证收敛后的网络就一定比浅层网络有更好的性能(即会出现网络退化问题,所以后来出现了残差网络,来解决这个网络退化的问题)。传统的神经网络,只是在样本输入时对样本进行标准化处理,以降低样本特征之间的差异性。与此同时,BN主要解决的是所谓的内部协方差偏移问题(Internal Covariate Shift)。内部当然就是指深度神经网络的内部,也就是除去输入层之外的隐藏层加上输出层,因为对于输入层而言,我们可以通过各种标准化归一化的手段使其输入数据属原创 2020-06-12 11:24:51 · 174 阅读 · 0 评论 -
【面试必备】之《常见的过拟合处理方法》
机器学习(1)正则化(2)决策树剪枝(3)随机森林中的特征随机性(4)交叉验证(5)XGBoost中的shrinkage深度学习(1)正则化(2)early stopping(3)CNN网络中的权值共享(4)dropout原创 2020-06-12 11:24:59 · 194 阅读 · 0 评论 -
【面试必备】SVM优点解析
机器学习的本质(无论是分类问题还是回归问题)就是对问题真实模型(函数)的逼近(approximate),风险就是学习得到的模型与问题真实模型之间的误差(误差函数也就是损失函数的形式有多种,如0-1损失函数,平方损失函数,绝对损失函数等等)。然而真实的模型我们永远都无法知道,因此我们用经验风险来做为真实风险,经验风险就是模型在训练集上的误差。学习的策略就是经验风险最小化。然而经验风险小并不能保证真实风险就小,真实风险也就是结构风险等于经验风险+置信风险。置信风险表示我们有多大的确信度去相信经验风险的结果,置信原创 2020-06-10 22:32:07 · 2129 阅读 · 0 评论 -
【面试必备】XGBoost优点解析
1. 二阶导数信息GBDT在优化时只用到了一阶导数信息,而XGBoost则对损失函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。2. 防止过拟合(1)正则项XGBoost在代价函数里加入了正则项,用于控制模型的复杂度。正则项包括叶子结点的个数以及叶子节点值的L2范数。从Bias-variance tradeoff的角度来讲,增大偏差,减小方差,这也是XGBoost优于GBDT的一个特性。(2)shrinkageXGBoost在每次学习得到一棵新的子树之后,会将叶子结点的值乘上一个大于0小于1的原创 2020-06-10 18:04:55 · 1564 阅读 · 0 评论