有了CNN卷积神经网络后,图像不再使用人工选择特征+SVM,但SVM仍有其研究价值。SVM强于logistic回归。
软间隔并不要求SVM能全分对,加核函数使得SVM非线性。
一、线性可分支持向量机
两条虚线上的向量为支持向量。
调参小技巧,线性核只有C一个参数,随着C的增大,过渡带越窄;
高斯核函数除C,还有γ参数,随着γ的增大,非线性越明显,随着C的增大,过渡带越窄。
上式为点到直线距离公式
先取最小再取最大,即先求出距离分割超平面最近的点,再求这些点距离超平面距离最大时的w和b。
二、线性支持向量机
带宽越大,越不容易过拟合
三、核函数
logistic回归、随机森林、SVM应用场景(直观理解)
1.三者都是分类很好的模型,非常关心模型的准确率和泛化能力则优先选择SVM(但没有深度学习强)。
2.作一个简单的分析,快速拿到结果,用随机森林,特征选择不用过分考虑。
3.logistic回归泛化能力没有SVM那么强,但速度快,准确率也不差。(速度方面,可能SVM10min才完成,而logistic回归秒级就能完成)
不是任意函数都能当核函数,需要满足以下要求
将所有的样本带入核函数,会得到一个矩阵,当该矩阵半正定,K才能作为核函数,否则不能。
logistic回归和SVM(吴恩达):
如果n是特征数,m是训练样本的数量:
1.如果n相对m很大,则选择logistic回归或者不含核函数的SVM(数据量过少,难以拟合SVM复杂的核函数)。
2.如果n很小,m适中,使用SVM高斯核函数。
3.如果n很小,m很大。加入更多特征,然后使用logistic回归或者没有核函数的SVM。