1.请简述SVM 原理
SVM是二分类模型,它的基本模型是在特征空间中寻找间隔最大的分离超平面的线性分类器(通俗一点就是,找出能将类别分开的距离结点距离最大的分离超平面),包括
线性可分支持向量机:训练样本线性可分,通过硬间隔最大化,学习一个线性分类器
线性支持向量机:训练样本近似线性可分,引入松弛变量,通过软间隔最大化,学习一个线性分类器
非线性支持向量机:训练数据线性不可分时,通过核技巧及软间隔最大化,学习一个非线性支持向量机
2.SVM 为什么采用间隔最大化
当训练数据线性可分时,存在无穷多个分离超平面将数据划分开,感知机利用误分类最小策略,求得分离超平面,但此时的解有无穷个,线性可分支持向量机利用间隔最大化求得最优分离超平面,确保唯一解;另一方面,此时得分隔超平面所产生的分类结果是鲁棒的,泛化能力强。
3.SVM 为什么要引入 核函数
核函数将数据从低维映射到了高维,使数据从低维不可分变成了高维可分;核函数的定义即特征空间的内积等于他们再原始样本空间中通过和函数计算的结果,不需要求解具体的映射函数,使得求解的难度大大降低。
4.SVM 核函数之间的区别
线性核:用于线性可分,参数少,速度快
-------线性不可分核------------
多项式核
高斯核:参数多,分类结果依赖参数。
拉普拉斯核
sigmoid核
5.为什么SVM对缺失数据敏感
SVM没有处理缺失值的策略,而svm希望样本在特征空间中线性客服呢,所以特征空间的好坏对svm的性能很重要;另外svm的决策只基于很少的支持向量,若噪音出现在支持向量中,容易对决策造成影响。