SVM的常见面试点

最新推荐文章于 2024-06-11 18:19:31 发布

echo__Moon

最新推荐文章于 2024-06-11 18:19:31 发布

阅读量7.3k

点赞数 1

分类专栏：算法学习笔记机器学习

本文链接：https://blog.csdn.net/qy724728631/article/details/82622535

版权

学习笔记同时被 3 个专栏收录

21 篇文章 0 订阅

订阅专栏

算法

13 篇文章 0 订阅

订阅专栏

机器学习

8 篇文章 0 订阅

订阅专栏

支持向量机(supportvector machine ,SVM)是一种二类分类模型.它的基本模型是定义在特征空间上的能够正确划分训练数据集并且几何间隔最大的线性分类器。支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题，支持向量机的学习算法是求解凸二次规划的最优化算法。

线性可分支持向量机

在线性可分的情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量，即：

在决定分离超平面时只有支持向量起作用，而其他实例点并不起作用。支持向量的个数一般很少，所以支持向量机由很少的“重要的”训练样本确定。

求解线性可分支持向量机的最优化问题：将它作为原始最优化问题，应用拉格朗日对偶性，通过求解对偶问题得到原始问题的最优解，这样的优点：一是对偶问题往往更容易求解，二是自然引入核函数，进而推广到非线性分类问题。

线性支持向量机

修改硬间隔最大化，成为软间隔最大化。通常是，训练数据中的一些特异点导致线性不可分。我们引入松弛变量。

非线性支持向量机

核函数表示将输入从输入空间映射到特征空间得到的特征向量之间的内积，满足正定条件。通过使用核函数可以学习非线性支持向量机，等价于隐式地在高维的特征空间中学习线性支持向量机，这样的方法称为核技巧，核方法是比支持向量机更为一般的机器学习方法。

一般选择线性核和高斯核，也就是Linear核与RBF核。
Linear核：主要用于线性可分的情形。参数少，速度快，对于一般数据，分类效果已经很理想了。
RBF核：主要用于线性不可分的情形。参数多，分类结果非常依赖于参数。

如果Feature的数量很大，跟样本数量差不多，这时候选用LR或者是Linear Kernel的SVM。
如果Feature的数量比较小，样本数量一般，不算大也不算小，选用SVM+Gaussian Kernel。

核将原始空间映射为无穷维空间。如果σ选得很大的话，高次特征上的权重实际上衰减得非常快，所以实际上相当于一个低维的子空间；反过来，如果σ选得很小，则可以将任意的数据映射为线性可分——当然，随之而来的可能是非常严重的过拟合问题。不过，通过调控参数，高斯核实际上具有相当高的灵活性，也是使用最广泛的核函数之一。

C较大，相当于λ较小，可能会导致过拟合，高方差，C越大，间隔越小，C非常大—硬间隔

C较小，相当于λ较大，可能会导致低拟合，高偏差；

σ较大，导致高偏差，高次特征衰减越快，偏线性（高斯分布太平滑）；

σ较小，导致高方差。无穷维，可解决任何数据，但易过拟合（高斯分布瘦长）

LR和SVM有什么区别，libsvm和liblinear有什么区别

相同点：

监督学习，分类，线性，判别模型，应用广泛

不同点：

损失函数：SVM hingeloss; LR对数损失说明分类的不同假设前提，SVM基于几何间隔最大化，LR基于概率理论

SVM只考虑局部的边界线附近的点（支持向量），LR考虑全局，即线性SVM不直接依赖于数据分布，分类平面不受一类点影响；LR则受所有数据点的影响，如果数据不同类别strongly unbalance，一般需要先对数据做balancing

SVM支持核函数，可处理线性非线性问题; LR模型简单，训练速度快，适合处理线性问题，原因是SVM只用个别点参与核运算，而LR需要全部点进行核运算，计算复杂度太高，很少运用。

SVM依赖数据表达距离，需要normalization，LR不需要

SVM的损失函数自带正则，故SVM为结构风险最小化算法，而LR必须在损失函数外加正则项

LR输出具有概率意义，而SVM没有，直接为1或-1

Libsvm主要是用来进行非线性svm 分类器的生成，用来就解决通用典型的分类问题

LIblinear主要专门为百万级别的数据和特征实现的线性分类器，因为linear分类器的训练比非线性分类器的训练计算复杂度要低很多，时间也少很多，而且在large scale data上的性能和非线性的分类器性能相当，所以Liblinear是针对大数据而生的。

echo__Moon

关注

1
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
SVM的常见面试点

支持向量机(supportvector machine ,SVM)是一种二类分类模型.它的基本模型是定义在特征空间上的能够正确划分训练数据集并且几何间隔最大的线性分类器。支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题，支持向量机的学习算法是求解凸二次规划的最优化算...
复制链接

扫一扫