【十大数据挖掘算法】SVM支撑向量机

最新推荐文章于 2022-07-19 07:57:12 发布

karon1988

最新推荐文章于 2022-07-19 07:57:12 发布

阅读量918

点赞数 1

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/karon1988/article/details/30219345

版权

数据挖掘专栏收录该内容

2 篇文章 0 订阅

订阅专栏

2006年的ICDM评出了十大数据挖掘算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART。

本系列是对这十大算法的个人理解。本文准备先用最通俗的语言大致解释下SVM是什么，把基本思想弄明白，然后再涉及一些数学等理论细节。

如有错误希望大家指出，一起交流~

本篇主要参考：支撑向量机导论

1.通俗理解支撑向量机

首先最简单的支撑向量机最用来做二分类的。简单来说二分类就是需要判断是非。比如给你一封邮件，判断是不是垃圾邮件；给你一张图像，判断图像里是否包含人脸；给你一个用户的访问数据，判断这是不是恶意用户等等。

下面用一张图简单解释下二维情况下的支撑向量机。

图中红色点代表“是”，即A区域；紫色的点代表“非”，即B区域。直线L是区分区域A和区域B的分割线。

首先要知道什么是支撑向量。所谓支撑向量就是每个区域中离分割线L最近的点，即区域A的点c和区域B中的点D。L_A和L_B是和L平行的，分别过点C和过点D的直线。注意，L_A和L_B到L的距离也是相等的。

支撑向量机需要完成的工作就是根据上图的六个点，最终找到分割线L。

L需要满足的条件有：

1.能把两类点分隔开来

2.到支撑向量的距离相等

3.到支撑向量的距离最大

找到了分割线L之后，给定一个新的未知的点，我们就能很快判断出这个点是属于区域A还是区域B了。

2.支撑向量机的理论

2.1最优化函数的推导

首先我们假设我们拥有训练数据集 $\{(\textbf{x}_i,y_i)\}_i$ ，其中 $\textbf{x}_i$ 是点的坐标， $y_i$ 的取值为 $\{\pm1\}$ ，我们设y=+1为区域A，y=-1为区域B。

我们假设区域A和区域B的分割线L由下式定义：

$\textbf{w}^T\textbf{x}+\textbf{b}=0$

则空间中任意一点 $\textbf{x}_i$ 到L的距离为： $|\textbf{w}^T\textbf{x}_i+\textbf{b}| / \|\textbf{w}\|_2^2$

上式中有绝对值，计算不方便。我们注意到区域A到L的距离和区域B到L的距离的方向相反，在符号上相差一个负号，我们规定从A到L的距离为正，从B到L的距离为负，则上式可以改写为： $y_i(\textbf{w}^T\textbf{x}_i+\textbf{b})/\|\textbf{w}\|_2^2$

我们又注意到， $\textbf{w}^T\textbf{x}+\textbf{b}=0$ 中,W和b可以进行任意缩放而不影响结果。假如一组 $\textbf{w}^T\textbf{x}+\textbf{b}=0$ 为 $x_1+2x_2+3=0$ ，那么我们把w和b都乘上2得到： $2x_1+4x_2+6=0$ 。这两组 $(\textbf{w},\textbf{b})$ 得到的L其实是一样的。

为了防止参数的任意缩放，我们设定对于支撑向量 $\textbf{x}_s$ ， $y_s(\textbf{w}^T\textbf{x}_s+\textbf{b})=1$ 。由于支撑向量到L的距离是所有样本中的最小值，所以 $y_i(\textbf{w}^T\textbf{x}_i+\textbf{b})\ge1$

综上：

1.支撑向量到L的距离为 $y_s(\textbf{w}^T\textbf{x}_s+\textbf{b})/\|\textbf{w}\|_2^2=1/\|\textbf{w}\|_2^2$

2.任意向量到L的距离为 $y_i(\textbf{w}^T\textbf{x}_i+\textbf{b})/\|\textbf{w}\|_2^2\ge1/\|\textbf{w}\|_2^2$ ，所以 $y_i(\textbf{w}^T\textbf{x}_i+\textbf{b})\ge1$

我们的目的是最大化支撑向量到L的距离，这样才能更好的区分区域A和区域B，所以基本的支撑向量机又叫做最大间隔分类器。用数学表示如下：

$\begin{array}{ll} \arg\max\limits_{\textbf{w},\textbf{b}} & 1/\|\textbf{w}\|_2^2 \\ \mathrm{subject~to} & y_i(\textbf{w}^T\textbf{x}_i+\textbf{b})\ge1 \end{array}$

最大 $1/\|\textbf{w}\|_2^2$ 就是最小 $1/2\|\textbf{w}\|_2^2$ ，所以最终的最优化函数为：

$\begin{array}{ll} \arg\min\limits_{\textbf{w},\textbf{b}} & \frac{1}{2}\|\textbf{w}\|_2^2 \\ \mathrm{subject~to} & y_i(\textbf{w}^T\textbf{x}_i+\textbf{b})\ge1 \end{array}$

上式是个典型的二次凸优化问题，可以用任何现成的凸优化算法来解。但是当把上式转化为Dual问题时，会发现有趣的性质。

2.2 转变为对偶问题

首先我们利用拉格朗日乘子将上式从一个带约束的优化目标函数转变为无约束的函数：

$\mathcal{L}(\textbf{w},\textbf{b},\pmb{\alpha})=\frac{1}{2}\|\textbf{w}\|_2^2-\sum_i\alpha_i\left[y_i(\textbf{w}^T\textbf{x}_i+\textbf{b})-1\right]$

然后我们考虑下式：

$\theta(\textbf{w},\textbf{b})=\max\limits_{\alpha_i\ge0}\mathcal{L}(\textbf{w},\textbf{b},\pmb{\alpha})$

1.当约束条件不满足时，即 $y_i(\textbf{w}^T\textbf{x}_i+\textbf{b})<1$ 时，由于需要最大化 $\mathcal{L}(\textbf{w},\textbf{b},\pmb{\alpha})$ ，则 $\alpha_i=+\infty$ ，无意义

2.约束条件满足时，即 $y_i(\textbf{w}^T\textbf{x}_i+\textbf{b})\ge1$ 时，为了最大化 $\mathcal{L}(\textbf{w},\textbf{b},\pmb{\alpha})$ ，所以 $\sum_i\alpha_i\left[y_i(\textbf{w}^T\textbf{x}_i+b)-1\right]=0$ ，所以此时 $\theta(\textbf{w},\textbf{b})=\frac{1}{2}\|\textbf{w}\|_2^2$

因此最开始的带约束的优化问题

$\begin{array}{ll} \arg\min\limits_{\textbf{w},\textbf{b}} & \frac{1}{2}\|\textbf{w}\|_2^2 \\ \mathrm{subject~to} & y_i(\textbf{w}^T\textbf{x}_i+\textbf{b})\ge1 \end{array}$

就转变为 $\min_{\textbf{w},\textbf{b}}~\theta(\textbf{w},\textbf{b})=\min_{\textbf{w},\textbf{b}} \max_{\alpha_i\ge0}\mathcal{L}(\textbf{w},\textbf{b},\pmb{\alpha})$