机器学习第十课：支持向量机SVM（一）线性可分（硬间隔）SVM_该序列集使用硬件隔svm算法,请写出相应的目标函数(关于w,b二次规划)-CSDN博客

本文链接：https://blog.csdn.net/dajiabudongdao/article/details/51912212

这段内容太多，本想不写。但实在太基础了。本节内容主要理论来源于李航《统计学习方法》。从今天开始，我开始看第三遍了。

推荐首先结合这篇机器学习第四课：SVM前置知识点（凸优化问题）看
http://blog.csdn.net/dajiabudongdao/article/details/52462942
支持向量机SVM是一种二类分类模型。支持向量机的学习策略就是间隔最大化，可形式化求解一个凸二次规划问题。

一、线性可分支持向量机

线性可分，简单点说，存在一条线性分割，可以将集合的正标识与负标识分割开来。

1.函数间隔

1.1 简介
对于给定的训练集T和超平面(w,b)。定义超平面(w,b)关于样本点 $(x_i,y_i)$ 的(不带符号的)函数间隔为 $\hat{\gamma_i}=y_i(wx_i+b)$ ,函数间隔向量化为

γ^= y (w x + b)

$\hat{\gamma}=y(wx+b)$

超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点的函数间隔最小值（注：到目前为止还没考虑符号问题）。

γ^= min i = 1, . . ., N γ i^

$\hat{\gamma}=\min_{i=1,...,N}\hat{\gamma_i}$
这个东西我建议结合我们学过的初等几何的知识来看。
一般讲到这里，函数间隔值需要单位化。因为一旦(w,b)成倍增长变为(2w,2b)之类的如果按照原算法，函数间隔随之增长。这很合理合理，但是我们关注的不是绝对距离而是彼此相对距离，而不是关注吃了“增强合剂”或套了“露露大招”的等比例放大数据集。单位化规范化的函数间隔成为几何间隔。这就是一个有方向的值。

γ^= w ∥ w ∥ x i + b ∥ w ∥

$\hat{\gamma}=\frac{w}{\|w\|}x_i+\frac{b}{\|w\|}$

这好像很熟悉？看看我们初中点 $(x_0,y_0)$ 到直线Ax+By+C=0的距离公式吧！

d = | A x 0 + B y 0 + C | A 2 + B 2 - - - - - - - \sqrt

$d = \frac{|Ax_0+By_0+C|}{\sqrt{A^2+B^2}}$
蜜汁一致。。。。。
1.2函数间隔再推导一次

上次推导是什么意思？其实本质就是初中那点东西。

初中的直角坐标系中直线表示：Ax+By+C=0，设 $x = (x;y),w=(A,B)$ （注，这里x是列向量），则原公式可以化为（ $wx+C=0$ ）
则点到直线公式可以写成 $d = \frac{|wx+C|}{\sqrt{w^2}}$ ,这就是 $\gamma=\frac{w}{\|w\|}x_i+\frac{b}{\|w\|}$ 。
恩？什么地方不一样？对！前者有绝对值。绝对值的作用是对方向进行封印，前面说过，我们定义的距离是有方向的（因为正方向一边一类，负方向一边一类），所以这里没有绝对值。

那么问题来了。在算距离误差时候，我们也会只考虑正值。我们是不是也该调和下。我们第一反应自然是绝对值。但是，这种绝对值的写法难处理，非常不适合我们的需求。于是我们换了一种更通用的技巧：

因为样本点 $(x_i,y_i)$ 中y仅可取{-1，1}，所以带不符号的几何距离可以这么写。

γ^= y i (w ∥ w ∥ x i + b ∥ w ∥)

$\hat{\gamma}=y_i(\frac{w}{\|w\|}x_i+\frac{b}{\|w\|})$

1.2间隔最大化
我觉得在思考的时候以点到直线距离的二维思路来进行N推演是比较靠谱的。那么，我们回想下我们的最终目的是什么？？当然是找到下图中间这条实线！这样的直线很多，我们的任务就是找到尽可能大的确信度。这就引出了间隔最大化。（直观的几何解释就是那最大化那条宽宽的Gap）
这里写图片描述
最大间隔平面变为最优化几何距离 $\gamma$ 的问题。

注意:为了方便后期运算，下面的参数没有用向量的写法。

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ max w, b γ s . t . : y i (w ∥ w ∥ x i + b ∥ w ∥) ⩾ γ, i = 1, 2, . . ., N

$\left \{ \begin{matrix}\max_{w,b}\gamma\\ s.t.: y_i(\frac{w}{\|w\|}x_i+\frac{b}{\|w\|})\geqslant\gamma, i=1,2,...,N\end{matrix}\right.$
因为在整理范围内等比例放大缩小对此问题并不影响，所以我们可以这样令

1||w||=γ $\frac{1}{||w||}=\gamma$ ，则上面可以改写成这样形式

⎧ ⎩ ⎨ min w, b ∥ w ∥ s . t . : y i (w x i + b) - 1 ⩾ 0, i = 1, 2, . . ., N

$\left \{ \begin{matrix}\min_{w,b}\|w\|\\ s.t.: y_i(wx_i+b) - 1 \geqslant 0, i=1,2,...,N\end{matrix}\right.$
为了方便求导，||w||前面可以加上1/2。这就变成我们常见的问题SVM目标函数。

⎧ ⎩ ⎨ ⎪ ⎪ min w, b 1 2 ∥ w ∥ 2 s . t . : y i (w x i + b) - 1 ⩾ 0, i = 1, 2, . . ., N

$\left \{ \begin{matrix}\min_{w,b}\frac{1}{2}\|w\|^2\\ s.t.: y_i(wx_i+b) - 1 \geqslant 0, i=1,2,...,N\end{matrix}\right.$

2.目标函数求解

⎧ ⎩ ⎨ ⎪ ⎪ min w, b 1 2 ∥ w ∥ 2 s . t . : - (y i (w x i + b) - 1) ⩽ 0, i = 1, 2, . . ., N

$\left \{ \begin{matrix}\min_{w,b}\frac{1}{2}\|w\|^2\\ s.t.: -(y_i(wx_i+b) - 1) \leqslant 0, i=1,2,...,N\end{matrix}\right.$

这里但额目标函数满足了KKT条件。这就是SVM巧妙的东西，也是核心思想的东西。这关乎到最大间隔的存在性与唯一性证明与求解方法。如果想深究建议直接看我这里的内容：
http://blog.csdn.net/dajiabudongdao/article/details/52462942

满足KKT条件的话，那么他的对偶形式肯定有解了。
我们直接把他的对偶形式写出来吧！对偶形式怎么写？
1.先用拉格朗日乘数法搞一下。
因为是求最小值，所以为要最小化拉格朗日函数

L (w, a, b) = 1 2 ∥ w ∥ 2 - \sum i = 1 N α i y i (w x i + b) + \sum i = 1 N α i

$L(w,a,b)=\frac{1}{2}\|w\|^2 -\sum_{i=1} ^{N}\alpha_i y_i(wx_i+b) + \sum_{i=1}^N\alpha_i$
求偏导吧！！

\partial w L (w, b, a) = w - \sum i = 1 N α i y i x i = 0 \partial b L (w, b, a) = \sum i = 1 N α i y i = 0

$\partial_w L(w,b,a)=w-\sum_{i=1}^N \alpha_iy_ix_i=0\\ \partial_b L(w,b,a)=\sum_{i=1}^N \alpha_iy_i=0\\$
得：

w = \sum i = 1 N α i y i x i

$w= \sum_{i=1}^N \alpha_iy_ix_i$
我们要最小化拉格朗日函数，代入得原目标函数的对偶函数

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ min α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i x j) - \sum i = 1 N α i \sum i = 1 N α i y i = 0 α i ⩾ 0, i = 1, 2, . . ., N

$\left \{ \begin{matrix}\min_{\alpha}\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_ix_j)-\sum_{i=1}^N\alpha_i\\ \sum_{i=1}^N\alpha_iy_i=0\\ \alpha_i \geqslant 0,\;\;\;\; i=1,2,...,N\end{matrix}\right.$
根据凸优化问题肯定有解，我们求得最优解的