SVM的简单理解

最新推荐文章于 2021-05-03 21:15:40 发布

ACE小海豚

最新推荐文章于 2021-05-03 21:15:40 发布

阅读量237

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_28714865/article/details/103716501

版权

机器学习专栏收录该内容

1 篇文章

订阅专栏

~~对于经典的SVM以及核函数等概念，总是感觉有点陌生，平常都是直接调用现成的第三方库，没有深究其原理，但该学还是得学，不学不行啊~~

问题：

给定训练样本集 $D={(\pmb{x_1},y_1),(\pmb{x_2},y_2),...,(\pmb{x_n},y_n)}$ ，其中 $y_i \in \{-1,+1\}$ （这里为什么是-1而不是0，主要是为了推出后面的公式）。在此假定样本集线性可分，即能在样本空间中找到一个超平面（ $\pmb{x}$ 为二维时，该划分平面为直线； $\pmb{x}$ 三维时为平面），将不同类别的样本分开。如下图所示， $\pmb{x}$ 为二维向量，此时应该找到一条位于两类训练样本正中间的直线 $Ax_1+Bx_2+C=0$ ，比较理想的即红色的那条
在这里插入图片描述
在样本空间中，划分超平面为
$\pmb{\omega}^T\pmb{x} +b=0$
其中法向量 $\pmb{\omega}^T=\{\omega_1,\omega_2,...,\omega_n\}$ 决定超平面的方向； $b$ 为位移项，决定了原点到超平面的距离。类似于点到平面的距离，对于样本空间中的任意点 $\pmb{x}$ 到该超平面的距离为
$r=\frac{|\pmb{\omega}^T\pmb{x}+b|}{||\pmb{\omega}||}$
对于 $y_i=-1$ ，有 $\pmb{\omega}^T\pmb{x_i} +b<0$ ；对于 $y_i=1$ ，有 $\pmb{\omega}^T\pmb{x_i} +b>0$ 。当线性可分时，存在 $\pmb{\omega}，b$ 使得下面成立
$\begin{cases} \pmb{\omega}^T\pmb{x_i} +b\geq+1，y_i=1\\ \pmb{\omega}^T\pmb{x_i} +b\leq-1，y_i=-1. \end{cases}$
使得上面两个不等式中的等号成立的点被称作支持向量（可以理解为不同类别的样本向量撑起了这个超平面），且两个不同类别的支持向量到超平面的距离之和如下，且被称为间隔
$\gamma=\frac{2}{||\pmb{\omega}||}$
找最优的划分超平面即寻找 $\pmb{\omega}，b$ 使得间隔 $\gamma$ 最大，等价于最小化 $||\pmb{\omega}||$ 。因此，原问题可以转化为一个凸二次规划问题，具体可以使用凸优化技术，比如拉格朗日数乘数法等进行求解：
$\underset{\omega,\ b}{\operatorname{\argmin}} \quad \frac{1}{2}||\pmb{\omega}|| \\ s.t. \quad y_i(\pmb{\omega}^T\pmb{x_i} +b)\geq1,i=1,2,...,n$
在这里插入图片描述

核函数

上文所说的都是基于训练样本线性可分的前提下，而当样本线性不可分时，此时在原样本空间无法找到一个超平面能将样本正确de划分开来（比如下图的“异或”问题）。
在这里插入图片描述
对于这样的问题，可以将原始空间映射到一个更加高维的空间，原本在低维空间不可分的样本在更加高维的空间线性可分。例如下图，将“异或”问题对应的原始二维空间映射到一个合适的三维空间，就能找到一个合适的超平面。而且有，如果原始空间是有限维，即特征数量有限，则一定存在更加高维的空间使得样本可分。
在这里插入图片描述
$\phi(x)$ 表示一种非线性映射关系，表示将原来的 $x$ 映射到更高维的特征空间，在新的特征空间划分超平面所对应的模型变为
$\pmb{\omega}^T\phi{(\pmb{x})} +b$
在求解新模型时，会涉及到到 $\phi{(\pmb{x_i})}^T\phi{(\pmb{x_j})}$ 的计算，即 $\pmb{x_i}和\pmb{x_j}$ 映射到新的特征空间之后的内积，由于映射后的空间维度更大（可能无穷维），因此直接计算内积 $\phi{(\pmb{x_i})}^T\phi{(\pmb{x_j})}$ 通常比较困难，因此，核函数(kernel trick)被提出来解决这个问题。核函数是指，低维输入空间存在函数 $\kappa$ ，它恰好等于在高维空间中的这个内积，这样就避免了复杂的非线性变换以及高维内积的计算，公式如下所示。
$\kappa(\pmb{x_i},\pmb{x_j})=<\phi{(\pmb{x_i})},\phi{(\pmb{x_j})}>=\phi{(\pmb{x_i})}^T\phi{(\pmb{x_j})}$
当 $\phi(*)$ 已知，则可以求出对应的 $\kappa{(*,*)}$ ，但问题是我们往往不知道 $\phi(*)$ 是什么形式，而且我们通常也不会去显式地找到这个 $\phi(*)$ 。若核函数的选择不合适，则样本被映射到的空间仍然不能构造出一个好的划分超平面，因此核函数的选择至关重要。下面是常用的几种核函数：
在这里插入图片描述