1.请详细说说支持向量机(support vector machine,SVM)的原理
SVM就是在原始数据的样本空间中找到一个最大间隔的划分超平面,将样本进行分类。
超平面的确定只与支持向量有关,通过最大化支持向量到超平面的距离,来确定超平面的位置。
求解最大化距离时,可以使用拉格朗日乘数法将问题转化为其对偶问题。
2、树形结构为什么不需要归一化?
归一化的目的: 避免数值较大的特征影响数值较小的特征。
需要归一化的: 通过梯度下降法求解的模型一般都是需要归一化的,比如线性回归、logistic回归、KNN、SVM、神经网络等模型。
而树模型研究的是单独特征对结果的影响,不存在多个特征之间的相互约束,概括一点来说因为数值缩放不影响分裂点位置,对树模型的结构不造成影响。对于线性模型,特征值差别很大时,运用梯度下降的时候,损失等高线是椭圆形,需要进行多次迭代才能到达最优点。而对于归一化的数据,损失等高线是圆形,更少的迭代次数即可到达最优点。
树模型不使用梯度下降,因为构建树模型相当于寻找最优分裂点,因此树模型是阶跃的,在阶跃点处不可导。
3、归一化和标准化的区别?
标准化:特征均值为0,方差为1