BAT机器学习面试1000题系列
https://blog.csdn.net/sinat_35512245/article/details/78796328
.L1和L2的区别。
L1范数(L1 norm)是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。
比如 向量A=[1,-1,3], 那么A的L1范数为 |1|+|-1|+|3|.
简单总结一下就是:
L1范数: 为x向量各个元素绝对值之和。
L2范数: 为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或Frobenius范数
Lp范数: 为x向量各个元素绝对值p次方和的1/p次方.
在支持向量机学习过程中,L1范数实际是一种对于成本函数求解最优的过程,因此,L1范数正则化通过向成本函数中添加L1范数,使得学习得到的结果满足稀疏化,从而方便人类提取特征。
L1范数可以使权值稀疏,方便特征提取。
L2范数可以防止过拟合,提升模型的泛化能力。
LR和SVM的联系与区别?
@朝阳在望,联系:
1、LR和SVM都可以处理分类问题,且一般都用于处理线性二分类问题(在改进的情况下可以处理多分类问题)
2、两个方法都可以增加不同的正则化项,如L1、L2等等。所以在很多实验中,两种算法的结果是很接近的。
区别:
1、LR是参数模型,SVM是非参数模型。
2、从目标函数来看,区别在于逻辑回归采用的是Logistical Loss,SVM采用的是hinge loss.这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。
3、SVM的处理方法是只考虑Support Vectors,也就是和分类最相关的少数点,去学习分类器。而逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重。
4、逻辑回归相对来说模型更简单,好理解,特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些,SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算。
5、Logic 能做的 SVM能做,但可能在准确率上有问题,SVM能做的Logic有的做不了。
GBDT和XGBoost的区别是什么?
@Xijun LI:XGBoost类似于GBDT的优化版,不论是精度还是效率上都有了提升。与GBDT相比,具体的优点有:
1.损失函数是用泰勒展式二项逼近,而不是像GBDT里的就是一阶导数;
2.对树的结构进行了正则化约束,防止模型过度复杂,降低了过拟合的可能性;
3.节点分裂的方式不同,GBDT是用的基尼系数,XGBoost是经过优化推导后的。
最大似然估计原理
xgboost原理
https://blog.csdn.net/github_38414650/article/details/76061893
GBDT和随机森林的区别
三,随机森林和GBDT的区别:
随机森林采用的bagging思想,而GBDT采用的boosting思想。这两种方法都是Bootstrap思想的应用,Bootstrap是一种有放回的抽样方法思想。虽然都是有放回的抽样,但二者的区别在于:Bagging采用有放回的均匀取样,而Boosting根据错误率来取样(Boosting初始化时对每一个训练样例赋相等的权重1/n,然后用该算法对训练集训练t轮,每次训练后,对训练失败的样例赋以较大的权重),因此Boosting的分类精度要优于Bagging。Bagging的训练集的选择是随机的,各训练集之间相互独立,弱分类器可并行,而Boosting的训练集的选择与前一轮的学习结果有关,是串行的。
组成随机森林的树可以是分类树,也可以是回归树;而GBDT只能由回归树组成。
组成随机森林的树可以并行生成;而GBDT只能是串行生成。
对于最终的输出结果而言,随机森林采用多数投票等;而GBDT则是将所有结果累加起来,或者加权累加起来。
随机森林对异常值不敏感;GBDT对异常值非常敏感。
随机森林对训练集一视同仁;GBDT是基于权值的弱分类器的集成。
随机森林是通过减少模型方差提高性能;GBDT是通过减少模型偏差提高性能
https://blog.csdn.net/login_sonata/article/details/73929426
bigo
逻辑回归特征离散化优点 特征离散化方法
什么是过拟合 过拟合解决
参数估计
分奖金
二叉树每一层的最大值
有一个数在数据组中出现次数超过一半 最小复杂度找出来
n方矩阵 顺时针排列
hive join map reduce阶段 过程
hive TXT文件建表 国家省城市
广告渠道Abc 广告订单成本 123 广告收益 efg 假设最大成本x 求满足的最大收益
泛化误差Bias(偏差),Error(误差),Variance(方差)及CV(交叉验证)
Error = Bias^2 + Variance+Noise
- 什么是Bias(偏差)
Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,即算法本身的拟合能力
- 什么是Variance(方差)
Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。反应预测的波动情况。
- 什么是Noise(噪声)
这就简单了,就不是你想要的真正数据,你可以想象为来破坏你实验的元凶和造成你可能过拟合的原因之一,至于为什么是过拟合的原因,因为模型过度追求Low Bias会导致训练过度,对测试集判断表现优秀,导致噪声点也被拟合进去了
作者:mrlevo520
链接:https://www.jianshu.com/p/8d01ac406b40
來源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。
2,逻辑回归多重共线性的解决办法
https://blog.csdn.net/nieson2012/article/details/48980491
3 判别模型,生成模型,
https://blog.csdn.net/haolexiao/article/details/70217607
l1,l2正则l1,l2正则
4,过拟合和解决办法
http://lib.csdn.net/article/machinelearning/33798
5,逻辑回归特征离散化优点,特征离散化方法
https://blog.csdn.net/u010358304/article/details/80693541
6,参数估计方法及区别
https://blog.csdn.net/ch1209498273/article/details/78313859