SVM需要掌握的内容
1. 简单介绍一下SVM算法
2. SVM为什么采用间隔最大化原理来构建模型?
3. 介绍一下SVM算法如何解决数据线性不可分的问题?
4. SVM为什么要使用核函数?常用核函数有那些?这些核函数的有什么区别?
5. 为什么SVM对缺失数据/缺失特征比较敏感?
6. SVM和LR有什么区别?
7. SVM模型中,如何处理过拟合或者欠拟合问题
8. 请详细推导一下SVM的最终损失函数的构建过程(请详细阐述一下SVM的执行过程)
1. 简单介绍一下SVM算法
SVM算法是一个二分类算法,是在线性可分两个类别数据中找出一个距离支持向量最远的分割线,将这两个类别分开。对于线性不可分数据,使用软间隔或核函数的方式。
2. SVM为什么采用间隔最大化原理来构建模型?
在线性可分的数据中,存在无穷个分离超平面可以将两类数据分开;而间隔最大化求得的超平面是唯一的,并且间隔最大化使两个类别区分更加明显,差异性更大。
3. 介绍一下SVM算法如何解决数据线性不可分的问题?
对于异常样本导致的线性不可分;软间隔SVM可以允许部分样本被分错。
数据样本本身不可分;1、可以通过多项式拓展将数据映射到高维,数据从低维映射到高维后,之前重叠不可分的数据会在高维中更容易找到分割线,最后用软间隔SVM对数据建模。2、通过核函数
4. SVM为什么要使用核函数?常用核函数有那些?这些核函数的有什么区别?
核函数含义:两个向量在低维空间上的函数计算结果和这两个向量映射到高维空间向量做内积结果是一致的。核函数的方法是在低维空间计算,但是得到高维空间