【机器学习】推导支持向量机SVM二分类

最新推荐文章于 2024-01-29 15:26:30 发布

artzers

最新推荐文章于 2024-01-29 15:26:30 发布

阅读量3.9k

点赞数

分类专栏：模式识别与机器学习文章标签： svm 机器学习

本文链接：https://blog.csdn.net/lpsl1882/article/details/52290087

版权

模式识别与机器学习专栏收录该内容

46 篇文章 6 订阅

订阅专栏

　　现实生活中，平面有两个坐标，平面空间可以表示为 $\Phi(x,y)=\left[ \begin{matrix} a & b \end{matrix}\right]\left[ \begin{matrix} x \\ y \end{matrix}\right]$ ;三维空间表示为 $\Phi(x,y)=\left[ \begin{matrix} a & b & c \end{matrix}\right]\left[ \begin{matrix} x \\ y \\ z \end{matrix}\right]$ 。我们需要处理的信息包含多个特征，即包含更多的维度，我们可以建立抽象的超空间来放置这些信息。其中超平面定义为 $w^Tx+b=0$ 。 $x$ 是信息的特征向量。
　　SVM中文叫支持向量机。设想超空间中有两个可分离的集合，我们可以用无限个超平面来分离这两个集合，但其中支持平面是唯一，即支持平面刚好在两个集合之间的中心。SVM便是找到这个支持平面的算法。
为了方便计算，我们将两个可分离集合中距离最近的两个元素向量定义为支持向量，将分类元素的判别值 $g(x)=w^Tx+b$ 分别归一化为1和-1。解析几何中，三维点到三维平面的距离的公式为

r = A x + B y + C z + D A 2 + B 2 + C 2 ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt

$r=\frac{Ax+By+Cz+D}{\sqrt{A^2+B^2+C^2}}$ ，推广到超平面就是

r=g(x)||w|| $r=\frac{g(x)}{||w||}$ 。为了最大可能地分离两个集合，我们计算得到此时支持向量的距离为

sum(r0)=1/||w||−(−1)/||w||=2/||w|| $sum(r_0)=1/||w||-(-1)/||w||=2/||w||$ ，因此有

r∝1/||w||→argmin(||w||) $r\propto1/||w|| \rightarrow argmin(||w||)$ 。我们要在当前限制条件下，尽量缩小w的模值。
　　从上述结论中，我们得到一个最优化问题。对于支持向量有

argminΦ(w)=1/2wTw,subject　to　dig(xi)=1 $argmin \Phi(w)=1/2w^Tw,subject　to　d_ig(x_i)=1$ ，非支持向量有

argminΦ(w)=1/2wTw,subject　to　dig(xi)>1 $argmin \Phi(w)=1/2w^Tw,subject　to　d_ig(x_i)>1$ 。因此有

a r g m i n Φ (w) = 1 / 2 w T w, s u b j e c t t o d i g (x i) \geq 1

$argmin \Phi(w)=1/2w^Tw,subject　to　d_ig(x_i)\ge1$ ，其中

di $d_i$ 是判别结果，取值为1和-1。
　　但是实际情况中，两个待区分的集合，边界可能是模糊的，总有几个偏离点，因此要引入松弛变量来弹性控制分类力度。上述式子写成

a r g m i n Φ (w) = 1 2 w T w + C \sum ξ i, s u b j e c t t o d i g (x i) - (1 - ξ i) \geq 0 ξ i \geq 0

$argmin \Phi(w)=\frac{1}{2}w^Tw+C\sum{\xi_i},subject　to　\\d_ig(x_i)-(1-\xi_i)\ge0 \\ \xi_i\ge0$ 接下来使用拉格朗日乘数法进行对偶问题转换，引入非负辅助变量

α,β $\alpha,\beta$ 。为了取得最小值，我们求取导数来找到极值：

J = 1 2 w T w + C \sum ξ i - \sum α i [d i g (x i) - (1 - ξ i)] - \sum β i ξ i, α i \geq 0, β i \geq 0 \partial J \partial w = w - \sum α i d i x i = 0 \to w = \sum α i d i x i \partial J \partial b = \sum α i d i = 0 \partial J \partial ξ i = C - α i - β i = 0 \to C = α i + β i, α i \leq C

$J=\frac{1}{2}w^Tw+C\sum{\xi_i}-\sum\alpha_i[d_ig(x_i)-(1-\xi_i)]-\sum \beta_i\xi_i,\alpha_i\ge0,\beta_i\ge0 \\ \frac{\partial J}{\partial w}=w-\sum\alpha_id_ix_i=0 \rightarrow w=\sum\alpha_id_ix_i \\ \frac{\partial J}{\partial b}=\sum\alpha_id_i=0 \\ \frac{\partial J}{\partial \xi_i}=C-\alpha_i-\beta_i=0 \rightarrow C=\alpha_i+\beta_i,\alpha_i\le C$ 代回J函数中有

J = 1 2 \sum i \sum j α i α j d i d j x T i x j + \sum i (α i + β i) ξ i - \sum i \sum j α i α j d i d j x T i x j - b \sum i α i d i + \sum i α i - \sum i (α i + β i) ξ i = \sum i α i - 1 2 \sum i \sum j α i α j d i d j x T i x j s u b j e c t t o \sum α i d i = 0, 0 \leq α i \leq C

$J=\frac{1}{2}\sum_i \sum_j \alpha_i \alpha_jd_id_jx_i^Tx_j \\+\sum_i (\alpha_i +\beta_i)\xi_i-\sum_i \sum_j \alpha_i \alpha_jd_id_jx_i^Tx_j-b\sum_i \alpha_id_i + \sum_i \alpha_i - \sum_i (\alpha_i+\beta_i)\xi_i \\ = \sum_i \alpha_i -\frac{1}{2}\sum_i \sum_j \alpha_i \alpha_jd_id_jx_i^Tx_j \\ subject　to　\sum\alpha_id_i=0,0\le \alpha_i \le C$ 这里看到，

ξ $\xi$ 和

β $\beta$ 被消去了，只剩下

α,d,x $\alpha,d,x$ ，跟不考虑松弛变量情况下的对偶问题是差不多的，区别只在于

α $\alpha$ 的取值范围。我可以调整

α $\alpha$ 的取值范围，来控制SVM的松弛程度。
　　引入核方法也比较简单，令

k(x) $k(x)$ 为核函数，有

g(k(xi))=wTk(xi)+b $g(k(x_i))=w^Tk(x_i)+b$ ，那么

\partial J \partial w = w - \sum i α i d i k (x i) = 0 J = \sum i α i - 1 2 \sum i \sum j α i α j d i d j k (x i) T k (x j) = \sum i α i - 1 2 \sum i \sum j α i α j d i d j K (x i, x j) s u b j e c t t o \sum α i d i = 0, 0 \leq α i \leq C

$\frac{\partial J}{\partial w}=w-\sum_i \alpha_id_ik(x_i)=0 \\ J=\sum_i \alpha_i -\frac{1}{2}\sum_i \sum_j \alpha_i \alpha_jd_id_jk(x_i)^Tk(x_j) \\ =\sum_i \alpha_i -\frac{1}{2}\sum_i \sum_j \alpha_i \alpha_jd_id_jK(x_i,x_j) \\ subject　to　\sum\alpha_id_i=0,0\le \alpha_i \le C$ 一般使用的核函数有
- 多项式核

(xixj+1)p $(x_ix_j+1)^p$
- 径向基核

e−12σ2|xi−xj|2 $e^{-\frac{1}{2\sigma^2}|x_i-x_j|^2}$
- 双曲核

tanh(αxixj+β) $tanh(\alpha x_ix_j+\beta)$
　　如何求解上述问题是个麻烦的过程，一般大家都用SMO算法来求解，还得考虑KKT条件之类的复杂的数学过程，这导致普通用户要实现算法，是非常困难且效率低下，一般需要求助于libSVM之类的库。如果要求求解速度快，对精度又有所妥协，可以参考下一篇最小二乘支持向量机（LSSVM）。