机器学习面试简答题（持续更新）

最新推荐文章于 2024-07-30 01:28:06 发布

小白的进阶之路

最新推荐文章于 2024-07-30 01:28:06 发布

阅读量2.1k

点赞数

分类专栏：算法题文章标签：机器学习

本文链接：https://blog.csdn.net/qq_37466121/article/details/90773824

版权

这篇博客介绍了机器学习面试中常见的问题，包括支持向量机（SVM）的工作原理，解释了树形结构不需要归一化的原因，对比了归一化与标准化的区别，并探讨了处理数据不平衡的各种策略。对于SVM，重点在于找到最大间隔的超平面；树模型不依赖特征的数值规模；归一化主要影响梯度下降法求解的模型；数据不平衡问题可以通过过采样、欠采样或加权方法解决。

摘要由CSDN通过智能技术生成

1.请详细说说支持向量机（support vector machine，SVM）的原理

SVM就是在原始数据的样本空间中找到一个最大间隔的划分超平面，将样本进行分类。
超平面的确定只与支持向量有关，通过最大化支持向量到超平面的距离，来确定超平面的位置。
求解最大化距离时，可以使用拉格朗日乘数法将问题转化为其对偶问题。

2、树形结构为什么不需要归一化？

归一化的目的： 避免数值较大的特征影响数值较小的特征。
需要归一化的： 通过梯度下降法求解的模型一般都是需要归一化的，比如线性回归、logistic回归、KNN、SVM、神经网络等模型。
而树模型研究的是单独特征对结果的影响，不存在多个特征之间的相互约束，概括一点来说因为数值缩放不影响分裂点位置,对树模型的结构不造成影响。对于线性模型，特征值差别很大时，运用梯度下降的时候，损失等高线是椭圆形，需要进行多次迭代才能到达最优点。而对于归一化的数据，损失等高线是圆形，更少的迭代次数即可到达最优点。
树模型不使用梯度下降，因为构建树模型相当于寻找最优分裂点，因此树模型是阶跃的，在阶跃点处不可导。