支持向量机(SVM)推导

最新推荐文章于 2021-06-26 17:35:00 发布

liuwei1206

最新推荐文章于 2021-06-26 17:35:00 发布

阅读量457

点赞数

分类专栏：数据挖掘与机器学习文章标签： svm svm推导过程支持向量机

本文链接：https://blog.csdn.net/jeryjeryjery/article/details/78356500

版权

数据挖掘与机器学习专栏收录该内容

19 篇文章 0 订阅

订阅专栏

1.svm定义

SVM从线性可分情况下的最优分类面发展而来。最优分类面就是要求分类线不但能将两类正确分开( 训练错误率为0)，且使分类间隔最大。SVM 考虑寻找一个满足分类要求的超平面，并且使训练集中的点距离分类面尽可能的远，也就是寻找一个分类面使它两侧的空白区域(Margin) 最大。如下图所示：
这里写图片描述
左边是一个分类超平面，但是不是最佳的，显然右边的分类超平面是最佳的，我们的目标就是要找到最佳的分类超平面。

2.间隔最大化

先给出一般的线性分类超平面的定义：
样本集 $\{x_n,t_n\},n=1,2,...,N,x_n\in R^d,t_n\in\{-1,1\}$
分类器： $y(x) = w^Tx+b$

t n = {1, - 1, y (x n) > 0 y (x n) < 0

$t_n= \begin{cases} 1, & \text {$y(x_n) > 0 $} \\ -1, & \text{$y(x_n) < 0 $} \end{cases}$
也就是如果预测值大于0则为类别1，预测值小于0则为类别-1。总之，有:

t n y (x n) > 0

$t_ny(x_n) > 0$

样本集任意一点 $x_n$ 到分类面( 满足 $t_ny(x_n) > 0$ ) 的距离为：

t n y ( x n ) | | w | | = t n ( w T x n + b ) | | w | |

$\frac{t_ny(x_n)}{||w||} = \frac{t_n(w^Tx_n+b)}{||w||}$
这类似于点到直线的距离的求发。假设有一条直线:

x1+x2+2=0 $x_1+x_2+2=0$ ,我们求点

(xi,xj) $(x_i,x_j)$ 到该直线的举例就是

xi+xj+2x21+x22√ $\frac{x_i+x_j+2}{\sqrt{x_1^2+x_2^2}}$ ，只是上面的分母它用了一个向量的形式来表示所有的变量

(w1,w2,...,wm) $(w_1,w_2,...,w_m)$ 。

而SVM要找的分类平面是，使得离该平面最近的点（边界点）离该平面的距离尽可能的远，用数学公式表示就是:

a r g m a x w, b {1 | | w | | m i n n [t n (w T x + b)]}

$arg\;max_{w,b}\{\frac{1}{||w||} min_n[t_n(w^Tx+b)]\}$
里面表示距离分类面最近的点的距离，外面表示使得该距离最大。因为距离平面最近的点对应的

tn(wT+b) $t_n(w^T+b)$ 必定为某个正数

k $k$ ，我们假设该值就是1，并不会影响参数

w,b $w,b$ 的取值。例如点

(2,1) $(2,1)$ 在

2x1+3x2−4 $2x_1+3x_2-4$ 中的取值为3，要使得该值为1，只需要相应的

w,b $w,b$ 同时缩小为原来的

13 $\frac{1}{3}$ ,即变为

23x1+x2−43 $\frac{2}{3}x_1+x_2-\frac{4}{3}$ ，但是表示的仍然是同一条直线。所以原问题就转化为:

a r g m a x w, b {1 | | w | |}

$arg\;max_{w,b}\{\frac{1}{||w||} \}$
并且上面假设了离分类面最近的点的距离为1，那么其他点对应的

tn(wT+b)>1 $t_n(w^T+b)>1$ 。

因为问题转化为最大化 $||w||^{-1}$ ,等价于最小化 $\frac{1}{2}||w||^{2}$ ,则上述问题可以用下面的数学表达式来描述：

a r g m i n w, b 1 2 | | w | | 2, s . t . t n (w T x + b) \geq 1

$arg\;min_{w,b}\;\frac{1}{2}||w||^{2},s.t.\;t_n(w_Tx+b)\geq1$
解这种含不等式约束的极值点要用拉格朗日乘子法，构造拉格朗日函数如下：

L (w, b, a) = 1 2 | | w | | 2 - \sum n = 1 N a n (t n (w T x + b) - 1), a n > 0

$L(w,b,a)=\frac{1}{2}||w||^{2}-\sum_{n=1}^Na_n(t_n(w^Tx+b)-1),a_n>0$
其中

an $a_n$ 是拉格朗日乘子，是一个正数。
对于上述的

L(w,b,a) $L(w,b,a)$ ，对它的最大值进行讨论。
1.当

tn(wTx+b)>=1 $t_n(w^Tx+b)>=1$ 时:
显然有

(wTx+b)−1≥0 $(w^Tx+b)-1\geq 0$ ，又

an $a_n$ 是一个正数，所以

\sum n = 1 N a n (t n (w T x + b) - 1) \geq 0

$\sum_{n=1}^Na_n(t_n(w^Tx+b)-1) \geq 0$ 所以:

L (w, b, a) = 1 2 | | w | | 2 - \sum n = 1 N a n (t n (w T x + b) - 1) = 1 2 | | w | | 2 - 非 负 数

$L(w,b,a)=\frac{1}{2}||w||^{2}-\sum_{n=1}^Na_n(t_n(w^Tx+b)-1)=\frac{1}{2}||w||^{2}-非负数$
所以，很显然这种情况下

maxL(w,b,a)=12||w||2 $max\;L(w,b,a)=\frac{1}{2}||w||^{2}$

2.当 $t_n(w^Tx+b)<1$ 时:
显然有 $(w^Tx+b)-1\geq 0$ ，又 $a_n$ 是一个正数,所以该累加项趋近于负无穷，即 $\sum_{n=1}^Na_n(t_n(w^Tx+b)-1)$ 趋于 $-\infty$ ，所以 $max\;L(w,b,a)$ 值是趋近于 $+\infty$
总结之后就是:

m a x L (w, b, a) = {1 2 | | w | | 2, + \infty, t n (w T x + b) > = 1 t n (w T x + b) < 1

$max\;L(w,b,a)= \begin{cases} \frac{1}{2}||w||^{2}, & \text {$t_n(w^Tx+b)>=1 $} \\ +\infty, & \text{$t_n(w^Tx+b)<1 $} \end{cases}$
又前面假设中已经有任意点都满足

tn(wTx+b)>=1 $t_n(w^Tx+b)>=1$ ，所以

maxL(w,b,a) $max\;L(w,b,a)$ =

12||w||2 $\frac{1}{2}||w||^{2}$ 。

然后我们再回到原始的优化问题：

a r g m i n w, b 1 2 | | w | | 2, s . t . t n (w T x + b) \geq 1

$arg\;min_{w,b}\;\frac{1}{2}||w||^{2},s.t.\;t_n(w_Tx+b)\geq1$
因为

maxL(w,b,a) $max\;L(w,b,a)$ =

12||w||2 $\frac{1}{2}||w||^{2}$ ，用

L(w,b,a) $L(w,b,a)$ 替换

w $w$ ，所以该问题就等价于:

a r g m i n w, b m a x a L (w, b, a), s . t . t n (w T x + b) \geq 1

$arg\;min_{w,b}\;max_a\;L(w,b,a),s.t.\;t_n(w_Tx+b)\geq1$
但是这样不容易求解，我们需要考虑它的对偶问题。

3.拉格朗日对偶性

求下面极值：

m i n w f (w)

$min_w\;f(w)$
在等式约束下的极值问题

s.t.hi(w)=1,...,l $s.t.h_i(w)=1,...,l$

L (w, β) = f (w) + \sum i = 1 l β i h i (w)

$L(w,\beta)=f(w)+\sum_{i=1}^l\beta_ih_i(w)$
在不等式约束下的极值问题

s.t.gi(w)≤0,i=1,...,k;hi(w)=1,...,l $s.t.g_i(w)\leq0,i=1,...,k;h_i(w)=1,...,l$

L (w, α, β) = f (w) + \sum i = 1 k α i g i (w) + \sum j = 1 l β j h j (w)

$L(w,\alpha,\beta)=f(w)+\sum_{i=1}^k\alpha_ig_i(w)+\sum_{j=1}^l\beta_jh_j(w)$

定义 $\theta_P(w)\;=\;max_{\alpha,\beta}\;L(w,\alpha,\beta),s.t.\alpha_i\geq0$ ，只有满足基本约束条件时， $\theta_P$ 才会有最大值，基本约束条件就是上面不等式约束下的那些约束条件：

θ P (w) = {f (w), + \infty, if w satisfies premal constraints otherwise

$\theta_P(w)= \begin{cases} f(w), & \text {if w satisfies premal constraints} \\ +\infty, & \text{otherwise} \end{cases}$

原问题 $min_w\;f(w)$ 转化为 $min_w\;\theta_P(w)=min_w\;max_{\alpha,\beta}L(w,\alpha,\beta)$ ，记为 $p^*$ ,直接求解不容易，需要转向另一个问题 $\theta_D(w)\;=\;min_{w}\;L(w,\alpha,\beta)$ ,先固定 $\alpha,\beta$ ，然后再求拉格朗日函数关于 $w$ 的最小值，之后再求 $\theta_D(w)$ 的最大值。即:

m a x α, β θ D (w) = m a x α, β m i n w L (w, α, β)

$max_{\alpha,\beta}\;\theta_D(w)=max_{\alpha,\beta}\;min_w\;L(w,\alpha,\beta)$
该问题是原问题的对偶问题，记为

d∗ $d^*$ ，很容易推出有下面大小关系:

d * = m a x α, β m i n w L (w, α, β) \leq m i n w m a x α, β L (w, α, β) = p *

$d^*=max_{\alpha,\beta}\;min_w\;L(w,\alpha,\beta)\leq min_w\;max_{\alpha,\beta}L(w,\alpha,\beta)=p^*$
即最小值的最大取值一定要小于等于最大值的最小取值。

为了使得原问题的解和对偶问题的解相等，即 $p^*=d^*$ ，必须使得它们的解 $(w^*,\alpha^*,\beta^*)$ 满足KKT条件，即:
$\frac{\partial}{\partial_{w_i}}L(w^*,\alpha^*,\beta^*)=0,i=1,...,n$
$\frac{\partial}{\partial_{\beta_i}}L(w^*,\alpha^*,\beta^*)=0,i=1,...,l$
$\alpha^*_ig_i(w^*)=0,i=1,...,k称为KKT对偶互补条件$
$g_i(w^*)\leq0,i=1,...,k$
$a^*\geq0,i=1,...,k$

如果 $(w^*,\alpha^*,\beta^*)$ 都满足KKT条件，那么它们就是原问题和对偶问题的解。
补充条件隐含如果 $a^*>0$ ，那么 $g_i(w^*)=0$ ，即 $w$ 处于可行域的边界上，是起作用的(Active) 约束，而位于可行域内部的点都是不起作用的约束，其 $a^*=0$ 。

4.最优间隔分类器

接到第2小节，该优化问题：

a r g m i n w, b m a x a L (w, b, a), s . t . t n (w T x + b) \geq 1

$arg\;min_{w,b}\;max_a\;L(w,b,a),s.t.\;t_n(w_Tx+b)\geq1$
转化为对偶问题就是:

a r g m a x a m i n w, b L (w, b, a), s . t . t n (w T x + b) \geq 1

$arg\;max_a\;min_{w,b}\;L(w,b,a),s.t.\;t_n(w_Tx+b)\geq1$

该对偶问题表示，先求 $L(w,b,a)$ 关于参数 $w,b$ 的最小值，然后再求关于参数 $a$ 的最大值。关于参数 $w,b$ 的最小值，直接求导，找到极值点。
$L(w,b,a)=\frac{1}{2}||w||^{2}-\sum_{n=1}^Na_n(t_n(w^Tx+b)-1),a_n\geq0$

\partial \partial w L (w, b, a) = 0 \Rightarrow w - \sum n = 1 N a n t n x n = 0

$\frac{\partial}{\partial_{w}}L(w,b,a)=0\Rightarrow w-\sum_{n=1}^Na_nt_nx_n=0$

\partial \partial b L (w, b, a) = 0 \Rightarrow \sum n = 1 N a n t n = 0

$\frac{\partial}{\partial_{b}}L(w,b,a)=0\Rightarrow \sum_{n=1}^Na_nt_n=0$
将

w=∑Nn=1antnxn $w=\sum_{n=1}^Na_nt_nx_n$ 和

∑Nn=1antn=0 $\sum_{n=1}^Na_nt_n=0$ 带入原

L(w,b,a) $L(w,b,a)$ ，可以求得

L (w, b, a) = \sum n = 1 N a n - 1 2 \sum i = 1 N \sum j = 1 N a i a j t i t j x T i x j

$L(w,b,a)=\sum_{n=1}^Na_n-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^Na_ia_jt_it_jx_i^Tx_j$

s.t.ai≥0,∑Ni=1aiti=0 $s.t.a_i\geq0,\sum_{i=1}^Na_it_i=0$

推导过程为:
这里写图片描述

注意变换过的 $L(w,b,a)$ 式子中， $x_i$ 表示第i个样本，是已知的； $t_i$ 表示第i个样本对应的类别值，为1或-1，也是已知的；所以该式子中仅有一个参数 $a$ 是未知的。所以进一步的优化就是找到某一组 $a$ ，让 $L(w,b,a)$ 取得最大值，而只要找到一组 a <script type="math/tex" id="MathJax-Element-14523">a</script>，它能够使得所有的样本都满足KKT条件时，便能够取得最大值。具体的实现算法参考SMO算法。

liuwei1206

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
支持向量机(SVM)推导

1.svm定义 SVM从线性可分情况下的最优分类面发展而来。最优分类面就是要求分类线不但能将两类正确分开( 训练错误率为0)，且使分类间隔最大。SVM 考虑寻找一个满足分类要求的超平面，并且使训练集中的点距离分类面尽可能的远，也就是寻找一个分类面使它两侧的空白区域(Margin) 最大。如下图所示：左边是一个分类超平面，但是不是最佳的，显然右边的分类超平面是最佳的，我们的目标就是要找
复制链接

扫一扫