机器学习面试题总结

最新推荐文章于 2024-06-11 17:35:02 发布

ailinmiao

最新推荐文章于 2024-06-11 17:35:02 发布

阅读量265

点赞数

本文链接：https://blog.csdn.net/weixin_42723548/article/details/105519930

版权

支持向量机

1.请简要介绍下SVM。

SVM，全称是support vector machine，中文名叫支持向量机。SVM是一个面向数据的分类算法，它的目标是为确定一个分类超平面，从而将不同的数据分隔开，也被称为最大间距分类器。

原理：cost function和LR不同，LR使用log函数，而SVM用的是分段函数；它用来直接预测结果是0还是1，而不是像LR一样输出的是概率。

扩展：

支持向量机学习方法包括构建由简至繁的模型：线性可分支持向量机、线性支持向量机及非线性支持向量机。当训练数据线性可分时，通过硬间隔最大化，学习一个线性的分类器，即线性可分支持向量机，又称为硬间隔支持向量机；当训练数据近似线性可分时，通过软间隔最大化，也学习一个线性的分类器，即线性支持向量机，又称为软间隔支持向量机；当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机。

2. SVM的优缺点：

优点：

由于SVM是一个凸优化问题，所以求得的解一定是全局最优而不是局部最优。
不仅适用于线性线性问题还适用于非线性问题(用核技巧)。
拥有高维样本空间的数据也能用SVM，这是因为数据集的复杂度只取决于支持向量而不是数据集的维度，这在某种意义上避免了“维数灾难”。
理论基础比较完善(例如神经网络就更像一个黑盒子)。

缺点：

二次规划问题求解将涉及m阶矩阵的计算(m为样本的个数), 因此SVM不适用于超大数据集。(SMO算法可以缓解这个问题)
只适用于二分类问题。(SVM的推广SVR也适用于回归问题；可以通过多个SVM的组合来解决多分类问题)

3.LR和SVM的联系与区别？

1、LR和SVM都可以处理分类问题，且一般都用于处理线性二分类问题（在改进的情况下可以处理多分类问题）
2、两个方法都可以增加不同的正则化项，如L1、L2等等。所以在很多实验中，两种算法的结果是很接近的。

区别：

1、LR是参数模型，SVM是非参数模型。
2、从目标函数来看，区别在于逻辑回归采用的是Logistical Loss，SVM采用的是hinge loss.这两个损失函数的目的都是增加对分类影响较大的数据点的权重，减少与分类关系较小的数据点的权重。
3、SVM的处理方法是只考虑Support Vectors，也就是和分类最相关的少数点，去学习分类器。而逻辑回归通过非线性映射，大大减小了离分类平面较远的点的权重，相对提升了与分类最相关的数据点的权重。
4、逻辑回归相对来说模型更简单，好理解，特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些，SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算。
5、Logic 能做的 SVM能做，但可能在准确率上有问题，SVM能做的Logic有的做不了。

————————————————————————————————————————————————————————————

GDBT相关【Boosting框架+CART回归树模型+任意损失函数】

GDBT详解，GDBT正则化方法【原理和正则化请点链接】【关键词：残差、负梯度】

1.GBDT主要的优点有：
（1）可以灵活处理各种类型的数据，包括连续值和离散值。
（2）在相对少的调参时间情况下，预测的准备率也可以比较高。这个是相对SVM来说的。

（3）准确率较高；
GBDT的主要缺点有：
（1）由于弱学习器之间存在依赖关系，难以并行训练数据。

2、XGBoost和GBDT的区别 XGBoost/GBDT xgboost

　 1）将树模型的复杂度加入到正则项中，来避免过拟合，因此泛化性能会由于GBDT。

　 2）损失函数是用泰勒展开式展开的，同时用到了一阶导和二阶导，可以加快优化速度。

　　3）和GBDT只支持CART作为基分类器之外，还支持线性分类器，在使用线性分类器的时候可以使用L1，L2正则化。

　　4）引进了特征子采样，像RandomForest那样，这种方法既能降低过拟合，还能减少计算。

　　5）在寻找最佳分割点时，考虑到传统的贪心算法效率较低，实现了一种近似贪心算法，用来加速和减小内存消耗，除此之外还考虑了稀疏数据集和缺失值的处理，对于特征的值有缺失的样本，XGBoost依然能自动找到其要分裂的方向。

　　6）XGBoost支持并行处理，XGBoost的并行不是在模型上的并行，而是在特征上的并行，将特征列排序后以block的形式存储在内存中，在后面的迭代中重复使用这个结构。这个block也使得并行化成为了可能，其次在进行节点分裂时，计算每个特征的增益，最终选择增益最大的那个特征去做分割，那么各个特征的增益计算就可以开多线程进行。

ailinmiao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习面试题总结

1.请简要介绍下SVM。SVM，全称是support vector machine，中文名叫支持向量机。SVM是一个面向数据的分类算法，它的目标是为确定一个分类超平面，从而将不同的数据分隔开，也被称为最大间距分类器。原理：cost function和LR不同，LR使用log函数，而SVM用的是分段函数；它用来直接预测结果是0还是1，而不是像LR一样输出的是概率。扩展：支持向量机学习...
复制链接

扫一扫