四、支持向量机SVM面试题总结

最新推荐文章于 2024-05-15 14:21:43 发布

高桥凉瓜

最新推荐文章于 2024-05-15 14:21:43 发布

阅读量1.9k

点赞数 2

分类专栏：机器学习面试题总结文章标签：人工智能支持向量机数据挖掘算法机器学习

本文链接：https://blog.csdn.net/Anthony_hit/article/details/123255132

版权

机器学习面试题总结专栏收录该内容

7 篇文章 7 订阅

订阅专栏

1. SVM的基本原理？

支持向量机为一个二分类模型，SVM的目标是寻找一个最优的分离超平面，将两类数据在空间中分离开来，并且使得这个超平面到最近的点的间隔最大，这些点称为支持向量。

2. 引入对偶算法的优点？

一是对偶问题往往更容易求解。当我们寻找约束存在时的最优点的时候，约束的存在虽然减小了需要搜寻的范围，但是却使问题变得更加复杂。为了使问题变得易于处理，我们的方法是把目标函数和约束全部融入一个新的函数，即拉格朗日函数，再通过这个函数来寻找最优点；
二是方便引入核函数，（因为对偶问题涉及的是数据的内积计算）进而推广到非线性分类问题。

3. SVM与LR的区别？

LR是参数模型，SVM是非参数模型。非参数模型对目标函数不作过多的假设，如KNN、决策树等；
LR的损失函数的负对数损失函数，SVM的损失函数是合页损失函数；
LR通过sigmoid函数进行非线性映射，从而削弱远离分类决策面的数据的作用。而SVM是只考虑里分类决策面最近的支持向量的作用。

4. SVM硬间隔、软间隔的表达式？

在这里插入图片描述
不同在于松弛变量的引入。
松弛变量的作用：软间隔，使得原来线性不可分问题变为线性可分，部分函数间隔y *（w x + b ）无法满足大于1的条件的样本点加上松弛变量之后，函数间隔可以大于1。因此可以使用线性可分的解法求解。

5. 如果给你一些数据集，你会如何分类？

一种回答：
根据数据类型选择不同的模型，如Lr或者SVM，决策树。假如特征维数较多，可以选择SVM模型，如果样本数量较大可以选择LR模型，但是LR模型需要进行数据预处理；假如缺失值较多可以选择决策树。

6. SVM核函数的区别？

线性核：主要用于线性可分的情形，参数少，速度快，对于一般数据，分类效果已经很理想了；
高斯核：主要用于线性不可分的情形，参数多，分类结果非常依赖于参数。

特征数数量较多，和样本数量差不多，用线性核；
特征数少用高斯核。

7. 为什么SVM要引入核函数？

当样本在原始空间线性不可分时，可将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分。而引入这样的映射后，通过对偶问题来求解，无需求解真正的映射函数，而只需要知道其核函数。
核函数就是特征映射后的内积，在学习和预测中只需要定义核函数而不显式地定义映射函数，从而降低计算的难度。

8.为什么SVM对缺失值敏感？

SVM没有处理缺失值的策略；
SVM的效果和支持向量点有关，缺失值可能影响支持向量点的分布。

9. SVM如何处理多分类问题？

一对多：每次将一个类型作为正例，其他的作为反例，训练出k个分类器，当有一个新的样本来的时候，用这k个分类器来测试，哪个分类器的概率高，那么这个样本就属于哪一类。；
一对一：任意两个类训练出一个分类器，如果有k类，一共训练出 $C (2, k)$ 个分类器，这样当有一个新的样本要来的时候，用这$C(2,k) $个分类器来测试，每当被判定属于某一类的时候，该类就加一，最后票数最多的类别被认定为该样本的类。