支持向量机从入门到放肆（一）

最新推荐文章于 2022-07-25 23:07:02 发布

月岛雯er

最新推荐文章于 2022-07-25 23:07:02 发布

阅读量148

点赞数 1

分类专栏：机器学习文章标签：机器学习 SVM 支持向量机

本文链接：https://blog.csdn.net/sinat_38799649/article/details/96966182

版权

机器学习专栏收录该内容

0 篇文章 0 订阅

订阅专栏

文章目录

支持向量机从入门到放肆（一）

支持向量机从入门到放肆（一）

1. 支持向量机基本原理

假设有训练数据 $T=\{(x_1, y_1),(x_2, y_2),...,(x_N ，y_N)\}$ ， $y_i\in\{-1,+1\}$ 。最简单的分类想法就是找到一个超平面，将不同类别的样本分开。这样的超平面可能有很多，可以通过最大化超平面与样本之间的距离找到最优解。对于空间中一超平面 $\left(\boldsymbol{w}^{\prime}\right)^{\top} \boldsymbol{x}+b^{\prime}=0$ 。如果这个超平面可以正确分类两类样本，则对于任意样本 $\left(\boldsymbol{x}_{i}, y_{i}\right) \in D$ ：
$\left\{\begin{array}{ll}{\left(\boldsymbol{w}^{\prime}\right)^{\top} \boldsymbol{x}_{i}+b^{\prime}>0,} & {y_{i}=+1} \\ {\left(\boldsymbol{w}^{\prime}\right)^{\top} \boldsymbol{x}_{i}+b^{\prime}<0,} & {y_{i}=-1}\end{array}\right.$
根据几何间隔，上式中的0可以用一个极小的大于0的常数代替，这个极小的常数 $\zeta$ 表示距离超平面非常近：
$\left\{\begin{array}{ll}{\left(\boldsymbol{w}^{\prime}\right)^{\top} \boldsymbol{x}_{i}+b^{\prime} \geq+\zeta,} & {y_{i}=+1} \\ {\left(\boldsymbol{w}^{\prime}\right)^{\top} \boldsymbol{x}_{i}+b^{\prime} \leq-\zeta,} & {y_{i}=-1}\end{array}\right.$
前后同时除以 $\zeta$ ，再次修正上式：
$\left\{\begin{array}{ll}{\left(\frac{1}{\zeta} \boldsymbol{w}^{\prime}\right)^{\top} \boldsymbol{x}_{i}+\frac{b^{\prime}}{\zeta} \geq+1,} & {y_{i}=+1} \\ {\left(\frac{1}{\zeta} \boldsymbol{w}^{\prime}\right)^{\top} \boldsymbol{x}_{i}+\frac{b^{\prime}}{\zeta} \leq-1,} & {y_{i}=-1}\end{array}\right.$
令 $w=\frac{1}{\zeta} w^{\prime}, b=\frac{b^{\prime}}{\zeta}$ ，有：
$\left\{\begin{array}{ll}{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b \geqslant+1,} & {y_{i}=+1} \\ {\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b \leqslant-1,} & {y_{i}=-1}\end{array}\right.$
已知点到平面的距离为 $r=\frac{\left|\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right|}{\|\boldsymbol{w}\|}$ 。不难理解SVM的最优解就是使得两个异类的样本距离超平面的距离之和 $r=\frac{2}{\|\boldsymbol{w}\|}$ 最大的超平面。这个问题就变成了如下问题：
$\begin{array}{l}{\max _{\boldsymbol{w}, b} \frac{2}{\|\boldsymbol{w}\|}} \\ {\text { s.t. } y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1, \quad i=1,2, \ldots, m}\end{array}$
最大化 $\frac{2}{\|\boldsymbol{w}\|}$ 等价于最小化 $w\|^2$ ，即上式可以写为：
$\begin{array}{l}{\min _{\boldsymbol{w}, b} \frac{1}{2}\|\boldsymbol{w}\|^{2}} \\ {\text { s.t. } y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1, \quad i=1,2, \ldots, m}\end{array}$
即在满足 ${y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1, \quad i=1,2, \ldots, m}$ 这个条件的情况下，找到合适的 $\boldsymbol{w}$ 和 $b$ 使得 $\frac{1}{2}\|\boldsymbol{w}\|$ 最小。

2. 求解SVM的对偶问题

在上一节中，SVM的求解问题已经确定，现在需要运用数学方法来求解合适的 $\boldsymbol{w}$ 和 $b$ 。这里我们采用更高效的拉格朗日乘子法。先将SVM求解问题可以写成：
$\begin{array}{l}{\min _{\boldsymbol{w},b}\frac{1}{2}\|\boldsymbol{w}\|^2}\\{\text{s.t. }1-y_i\left(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}_i+b\right)\leq0}\end{array}$
用拉格朗日乘子法求解即：
$L(\boldsymbol{w}, b, \boldsymbol{\alpha})=\frac{1}{2}\|\boldsymbol{w}\|^{2}+\sum_{i=1}^{m} \alpha_{i}\left(1-y_{i}\left(\boldsymbol{w}^{\top} \boldsymbol{x}_{i}+b\right)\right)$
先对上式变形：
$\begin{aligned} L(\boldsymbol{w}, b, \boldsymbol{\alpha}) &=\frac{1}{2}\|\boldsymbol{w}\|^2+\sum_{i=1}^m \alpha_i\left(1-y_i\left(\boldsymbol{w}^{T}\boldsymbol{x}_i+b\right)\right)\\ &=\frac{1}{2}\|\boldsymbol{w}\|^2+\sum_{i=1}^m\left(\alpha_i-\alpha_iy_i\boldsymbol{w}^{T}\boldsymbol{x}_i-\alpha_iy_ib\right)\\ &=\frac{1}{2}\boldsymbol{w}^{T}\boldsymbol{w}+\sum_{i=1}^m\alpha_i-\sum_{i=1}^m\alpha_iy_i\boldsymbol{w}^{T}\boldsymbol{x}_i-\sum_{i=1}^m\alpha_iy_ib \end{aligned}$
对上式中 $\boldsymbol{w}$ 和 $b $ 求导，使导数为0，得到：
$\begin{aligned}\frac{\partial{L}}{\partial{\boldsymbol{w}}}=\frac{1}{2}\times2\times\boldsymbol{w}+0-\sum_{i=1}^{m}\alpha_iy_i\boldsymbol{x}_i-0=0 &\Longrightarrow \boldsymbol{w}=\sum_{i=1}^{m}\alpha_iy_i\boldsymbol{x}_i\\ \frac{\partial{L}}{\partial{b}}=0+0-0-\sum_{i=1}^{m}\alpha_iy_i=0&\Longrightarrow\sum_{i=1}^{m}\alpha_iy_i=0 \end{aligned}$
将 $\boldsymbol{w}=\sum_{i=1}^{m}\alpha_iy_i\boldsymbol{x}_i$ 和 $\sum_{i=i}^{m}\alpha_iy_i=0$ 代入 $L(\boldsymbol{w}, b, \boldsymbol{\alpha})$ ，则有：
$\begin{aligned} L(\boldsymbol{w},b,\boldsymbol{\alpha})&=\frac{1}{2}\boldsymbol{w}^{T}\boldsymbol{w}+\sum_{i=1}^m\alpha_i-\boldsymbol{w}^{T}\boldsymbol{w}+0\\ &=\sum_{i=1}^m\alpha_i-\frac{1}{2}\boldsymbol{w}^{T}\boldsymbol{w}\\ &=\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^m\alpha_i\alpha_jy_iy_j\boldsymbol{x}_i^{T}\boldsymbol{x}_j \end{aligned}$
即现在寻找合适的 $\boldsymbol{\alpha}$ 来最大化 $L(\boldsymbol{w},b,\boldsymbol{\alpha})$ ，即：
$\begin{aligned} \max_{\boldsymbol{\alpha}}&\text{ }\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^m\alpha_i\alpha_jy_iy_j\boldsymbol{x}_i^{T}\boldsymbol{x}_j\\ &\text{s.t. }\sum_{i=1}^{m}\alpha_iy_i=0,\\ &\alpha_i\geqslant0,i=1,2,...,m \end{aligned}$
上述问题是二次规划问题，可以使用二次规划算分来求解，但是这样求解的复杂度正比与训练样本的数量。实际上有更快速的算法，这里介绍使用序列最小化优化算法（Sequential Minimal Optimization, SMO）算法。SMO的基本思路是先固定 $\alpha_i$ 以外其他参数，找到目标函数在 $\alpha_i$ 上的最值。但是由于约束条件 $\sum_{i=1}^{m}\alpha_iy_i=0$ 存在， $\alpha_i$ 可以用别的参数表示出，因此先选择两个参数 $\alpha_i、\alpha_j$ ，固定其他参数，找到在参数 $\alpha_i、\alpha_j$ 上的最大值。

由于约束条件 $\sum_{i=1}^{m}\alpha_iy_i=0$ ，且固定了其他参数，有：
$\alpha_iy_i+\alpha_jy_j=c,\alpha_i\geqslant0,\alpha_j\geqslant0$
上式中可以小区 $\alpha_j$ ,代入原问题，则可以得到 $\alpha_i$ 和 $\alpha_j$ 的解。这样不断选取两个参数进行优化，直到收敛可得到所有 $\alpha$ 的解。

对于任何支持向量 $(\boldsymbol{x}_s,y_s)$ 都有：
$y_s\left(\sum_{i\in S}\alpha_iy_i\boldsymbol{x}_i^{T}\boldsymbol{x}_j+b\right)=1$
其中， $S$ 是所有支持向量的集合。因此，代入任何一个支持向量就可以求得 $b$ 。实际操作中，常用更鲁棒的方法：使用所有支持向量的平均值来求解 $b$ ，即：
$b=\frac{1}{|S|}\sum_{s \in S}\left(\frac{1}{y_s}-\sum_{i \in S}\alpha_iy_i\boldsymbol{x}_i^{T}\boldsymbol{x}_j\right)$
至此，最基本的支持向量机原理及求解过程已经叙述完毕。

3. 核函数

上述过程都默认能找到一个超平面，可以线性的对所有样本分类。但是在实际情况中，线性分类器往往不能实现正确分类。这时，可以将样本映射到高维的特征空间，在特征空间可以实现线性划分。用 $\phi(\boldsymbol{x})$ 表示样本 $\boldsymbol{x}$ 映射后的特征向量。则支持向量机待解决的问题转化为：
$\begin{aligned} \max_{\boldsymbol{\alpha}}&\text{ }\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^m\alpha_i\alpha_jy_iy_j\phi(\boldsymbol{x}_i)^{T}\phi(\boldsymbol{x}_j)\\ &\text{s.t. }\sum_{i=1}^{m}\alpha_iy_i=0,\\ &\alpha_i\geqslant0,i=1,2,...,m \end{aligned}$
上式中 $\phi(\boldsymbol{x}_i)^{T}\phi(\boldsymbol{x}_j)$ 是样本 $\boldsymbol{x}_i$ 和 $\boldsymbol{x}_j$ 的内积，如果样本维度过高，计算量会很大。为了避免这个问题，引入核函数 $\kappa(·，·)$ 使得样本 $\boldsymbol{x}_i$ 和 $\boldsymbol{x}_j$ 的内积等于核函数的结果，即：
$\kappa(\boldsymbol{x}_i，\boldsymbol{x}_j)=\langle \phi(\boldsymbol{x}_i),\phi(\boldsymbol{x}_j) \rangle=\phi(\boldsymbol{x}_i)^{T}\phi(\boldsymbol{x}_j)$
这样就简化了计算。因此支持向量机的求解变为：
$\begin{aligned} \max_{\boldsymbol{\alpha}}&\text{ }\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^m\alpha_i\alpha_jy_iy_j\kappa (\boldsymbol{x}_i,\boldsymbol{x}_j)\\ &\text{s.t. }\sum_{i=1}^{m}\alpha_iy_i=0,\\ &\alpha_i\geqslant0,i=1,2,...,m \end{aligned}$
即要解决非线性划分问题，只需要找到合适的特征变换，并找到这个变换对应的核函数就可以求解分线性支持向量机。事实上，只要一个对称的函数所对应的核矩阵是半正定的，它就可以当成核函数使用，且总能找到一个对应的映射 $\phi$ 。

常用的核函数有：

名称	表达式	参数
线性核	$\kappa (\boldsymbol{x}_i,\boldsymbol{x}_j)=\boldsymbol{x}_i^{T}\boldsymbol{x}_j$
多项式核	$\kappa (\boldsymbol{x}_i,\boldsymbol{x}_j)=(\boldsymbol{x}_i^{T}\boldsymbol{x}_j)^d$	$d\geqslant1$ 为多项式的次数
高斯核	$\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\exp \left(-\frac{\left\\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\\|^{2}}{2 \sigma^{2}}\right)$	$\sigma>0$ 为高斯核的贷款
拉普拉斯核	$\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\exp \left(-\frac{\left\\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\\|}{\sigma}\right)$	$\sigma>0$
Sigmoid核	$\kappa (\boldsymbol{x}_i,\boldsymbol{x}_j)=\text{tanh}(\beta\boldsymbol{x}_i^{T}\boldsymbol{x}_j+\theta)$	tanh为双曲正切函数， $\beta>0,\theta<0$

另外，将核函数 $\kappa_1,\kappa_2$ 进行下列组合之后仍是核函数：

线性组合 $\gamma\kappa_1+\gamma_2\kappa_2$ 仍为核函数
核函数的直积 $\kappa_1\bigotimes\kappa_2(\boldsymbol{x},\boldsymbol{z})=\kappa_1(\boldsymbol{x},\boldsymbol{z})\kappa_2(\boldsymbol{x},\boldsymbol{z})$ 仍为核函数
对于任意函数 $g(\boldsymbol{x})$ ， $\kappa(\boldsymbol{x},\boldsymbol{z})=g(\boldsymbol{x})\kappa_1(\boldsymbol{x},\boldsymbol{z})g(\boldsymbol{z})$ 仍是核函数

吼吼，今天先到这里。后续会更新。

月岛雯er

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
支持向量机从入门到放肆（一）

文章目录支持向量机从入门到放肆（一）1. 支持向量机基本原理2. 求解SVM的对偶问题3. 核函数支持向量机从入门到放肆（一）1. 支持向量机基本原理假设有训练数据T={(x1,y1),(x2,y2),...,(xN，yN)}T=\{(x_1, y_1),(x_2, y_2),...,(x_N ，y_N)\}T={(x1,y1),(x2,y2),...,(xN，yN)}，y...
复制链接

扫一扫

专栏目录