SVM(Support Vector Machine)读书笔记二（支持向量和Kernel方法）

最新推荐文章于 2025-04-14 00:03:29 发布

Jackie_Zhu

最新推荐文章于 2025-04-14 00:03:29 发布

阅读量3.8k

点赞数 3

分类专栏：机器学习机器学习文章标签： svm kernel

本文链接：https://blog.csdn.net/jackie_zhu/article/details/49949271

版权

本文深入探讨了支持向量机（SVM）中的支持向量和Kernel方法。通过特征转换，解释了如何在低维度空间解决线性不可分问题。SVM的对偶问题和KKT条件在解决优化问题中的作用被详细阐述，同时介绍了如何通过Kernel技巧降低计算复杂度。文中还讨论了不同类型的Kernel，如多项式和高斯核，并强调了Kernel选择的重要性。最后，总结了SVM模型的构建过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在一个线性不可分的样本中，用添加多次项特征可以将两类样本分开，具体原理请参考这里，用SVM分类器也是同样道理。如果两类样本交叉越多，需要越高次的特征，模型就越复杂，这在存储上和计算资源上都是很大的开销。SVM用kernel方法就解决了这个问题，kernel方法是将高维度的计算放到低维度来做，最后得到的是高纬度上的模型。具体原理请看下面的推导。

特征转换

如果样本在低纬度空间不可分，那么可以将样本的特征从低维度空间投影到高纬度空间，如下图所示
这里写图片描述
而一般从低纬度空间向高纬度空间投影的方法就是往已有的特征中添加多项式特征项，再来看下面一个图

上面三个图中，在( $x_1$ , $x_2$ )这个空间中，两类样本线性不可分，即在( $x_1$ , $x_2$ )空间中的所有线性模型都无法将这两类样本区分开。如果把这个空间投影到比如( $x_1$ , $x_2$ , $x_1^2$ , $x_1^2x_2$ , $x_1^2x_2^2$ , $x_1^2x_2^3$ , $x_1^3x_2$ ,…)这样的一个空间中就变得线性可分了（当然有过拟合的风险），在这个高纬度的空间中的超平面表现在( $x_1,x_2$ )空间中就是图三所示的一条曲线，图二则是将( $x_1,x_2$ )投影到二次项组成的4维空间中。

SVM的对偶问题

假设已经通过 $\phi(x)$ 将样本投影到了能够将两类样本分开的 $z$ 空间，那么需要解决的优化问题为：

m i n w, b 1 2 w T w; s . t . y n (w T ϕ (x) + b) \geq 1, n = 1... N

$\underset {w,b}{min} \frac{1}{2}w^Tw;s.t.\; y_n(w^T\phi(x)+b)\ge1,n=1...N$
上一篇中讲到可以用二次规划解这个问题，只要把Q,p,A,c丢进解二次规划的软件里就可以得到解，这里对应的特征是投影之后的高纬度特征。

Q = [0 0 T d 0 d I d]; p = 0; A = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y 1 y n x T 1 y 2 y 2 x T 2 . . . . . . . y n y n x T n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥, c = 1

$Q=\left[\begin{array}{cc}0\,\,\,0_d^T\\0_d\,\,I_d\end{array}\right];p=0;A=\left[\begin{array}{c}y_1\;\;\;\;\;y_nx_1^T\\y_2\;\;\;\;\;y_2x_2^T\\.......\\y_n\;\;\;\;\;y_nx_n^T\end{array}\right],c=1$
问题是，这里的Q是和投影之后的维度有关的，如果投影到的空间是很高维甚至无穷维，这个问题就没法解了。为了解这个问题，就需要把原来的问题转化成它的对偶形式，让这个问题的求解和转换后的维度没有关系，只和输入的样本的个数有关。

SVM的求解是一个带约束的最佳化问题：

m i n w 1 2 w T w; s . t . y n (w T x n + b) \geq 1, n = 1, 2... N

$\underset{w}{min}\frac{1}{2}w^Tw;s.t. y_n(w^Tx_n+b)\ge1,n=1,2...N$

解上面这个带约束的最佳化问题可参考Lagrange乘子法（可参考https://en.wikipedia.org/wiki/Lagrange_multiplier），把约束放进式子中，写成Lagrange表达式为：

L (b, w, α) = 1 2 w T w + \sum i = 1 i = N α i (1 - y n (w T z n + b))

$L(b,w,\alpha) = \frac{1}{2}w^Tw+\sum_{i=1}^{i=N}\alpha_i(1-y_n(w^Tz_n+b))$
首先，用 Lagrange 乘子法可以将上面的最优化问题写成下面的形式：

m i n w, b m a x α L (b, w, α) = m i n w, b 1 2 w T w + m a x α i \geq 0, i = 1.. N \sum i = 1 i = N α i (1 - y n (w T z n + b))

$\underset {w,b}{min}\;\underset {\alpha}{max}L(b,w,\alpha) = \underset {w,b}{min} \frac{1}{2}w^Tw+\underset {\alpha_i\ge0,i=1..N}{max}\sum_{i=1}^{i=N}\alpha_i(1-y_n(w^Tz_n+b))$
这里，为什么这个最优化问题和上面的n个不等式约束的优化问题是等价的呢？
上面优化过程中，先固定住w,b,根据

α $\alpha$ 来进行最大化，在w,b满足