四、支持向量机SVM面试题总结

1. SVM的基本原理?

支持向量机为一个二分类模型,SVM的目标是寻找一个最优的分离超平面,将两类数据在空间中分离开来,并且使得这个超平面到最近的点的间隔最大,这些点称为支持向量。

2. 引入对偶算法的优点?

一是对偶问题往往更容易求解。当我们寻找约束存在时的最优点的时候,约束的存在虽然减小了需要搜寻的范围,但是却使问题变得更加复杂。为了使问题变得易于处理,我们的方法是把目标函数和约束全部融入一个新的函数,即拉格朗日函数,再通过这个函数来寻找最优点
二是方便引入核函数,(因为对偶问题涉及的是数据的内积计算)进而推广到非线性分类问题。

3. SVM与LR的区别?

  • LR是参数模型,SVM是非参数模型。非参数模型对目标函数不作过多的假设,如KNN、决策树等;
  • LR的损失函数的负对数损失函数,SVM的损失函数是合页损失函数;
  • LR通过sigmoid函数进行非线性映射,从而削弱远离分类决策面的数据的作用。而SVM是只考虑里分类决策面最近的支持向量的作用。
4. SVM硬间隔、软间隔的表达式?

在这里插入图片描述
不同在于松弛变量的引入。
松弛变量的作用:软间隔,使得原来线性不可分问题变为线性可分,部分函数间隔y *(w x + b )无法满足大于1的条件的样本点 加上松弛变量之后,函数间隔可以大于1。因此可以使用线性可分的解法求解。

5. 如果给你一些数据集,你会如何分类?

一种回答:
根据数据类型选择不同的模型,如Lr或者SVM,决策树。假如特征维数较多,可以选择SVM模型,如果样本数量较大可以选择LR模型,但是LR模型需要进行数据预处理;假如缺失值较多可以选择决策树。

6. SVM核函数的区别?

线性核:主要用于线性可分的情形,参数少,速度快,对于一般数据,分类效果已经很理想了;
高斯核:主要用于线性不可分的情形,参数多,分类结果非常依赖于参数。

特征数数量较多,和样本数量差不多,用线性核;
特征数少用高斯核。

7. 为什么SVM要引入核函数?

当样本在原始空间线性不可分时,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。而引入这样的映射后,通过对偶问题来求解,无需求解真正的映射函数,而只需要知道其核函数。
核函数就是特征映射后的内积,在学习和预测中只需要定义核函数而不显式地定义映射函数,从而降低计算的难度。

8.为什么SVM对缺失值敏感?

  • SVM没有处理缺失值的策略;
  • SVM的效果和支持向量点有关,缺失值可能影响支持向量点的分布

9. SVM如何处理多分类问题?

一对多:每次将一个类型作为正例,其他的作为反例,训练出k个分类器,当有一个新的样本来的时候,用这k个分类器来测试,哪个分类器的概率高,那么这个样本就属于哪一类。;
一对一:任意两个类训练出一个分类器,如果有k类,一共训练出 C ( 2 , k ) C(2,k) C(2,k) 个分类器,这样当有一个新的样本要来的时候,用这$C(2,k) $个分类器来测试,每当被判定属于某一类的时候,该类就加一,最后票数最多的类别被认定为该样本的类。

  • 2
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值