支持向量机SVM基本理论

最新推荐文章于 2024-07-28 14:43:36 发布

瑟瑟发抖的菜鸡望

最新推荐文章于 2024-07-28 14:43:36 发布

阅读量815

点赞数

分类专栏：机器学习文章标签：博客

机器学习专栏收录该内容

37 篇文章 2 订阅

订阅专栏

转自：http://www.cnblogs.com/steven-yang/p/5658362.html

基本概念

SVM - Support Vector Machine。支持向量机，其含义是通过支持向量运算的分类器。其中“机”的意思是机器，可以理解为分类器。
什么是支持向量呢？在求解的过程中，会发现只根据部分数据就可以确定分类器，这些数据称为支持向量。
见下图，在一个二维环境中，其中点R，S，G点和其它靠近中间黑线的点可以看作为支持向量，它们可以决定分类器，也就是黑线的具体参数。
分类器：就是分类函数。
线性分类：可以理解为在2维空间中，可以通过一条直线来分类。在p维空间中，可以通过一个p-1维的超平面来分类。
向量：有多个属性的变量。在多维空间中的一个点就是一个向量。比如 x=(x1,x2,...,xn) 。下面的 w 也是向量。
约束条件(subject to) ：在求一个函数的最优值时需要满足的约束条件。
向量相乘: xwT=∑ni=1wixi
内积: ⟨x,y⟩=∑ni=1xiyi

解决的问题：

线性分类
在训练数据中，每个数据都有n个的属性和一个二类类别标志，我们可以认为这些数据在一个n维空间里。我们的目标是找到一个n-1维的超平面（hyperplane），这个超平面可以将数据分成两部分，每部分数据都属于同一个类别。
其实这样的超平面有很多，我们要找到一个最佳的。因此，增加一个约束条件：这个超平面到每边最近数据点的距离是最大的。也成为最大间隔超平面（maximum-margin hyperplane）。这个分类器也成为最大间隔分类器（maximum-margin classifier）。
支持向量机是一个二类分类器。
非线性分类
SVM的一个优势是支持非线性分类。它结合使用拉格朗日乘子法和KKT条件，以及核函数可以产生非线性分类器。
分类器1 - 线性分类器
是一个线性函数，可以用于线性分类。一个优势是不需要样本数据。
classifier 1:

$f (x) = x w T + b (1)$
w 和 b 是训练数据后产生的值。
分类器2 - 非线性分类器
支持线性分类和非线性分类。需要部分样本数据（支持向量），也就是 αi≠0 的数据。
∵
w=∑ni=1αiyixi
∴
classifier 2:

$f (x) = \sum n i = 1 α i y i K (x i, x) + b here x i : training data i y i : label value of training data i α i : Lagrange multiplier of training data i K (x 1, x 2) = e x p (- ∥ x 1 - x 2 ∥ 2 2 σ 2) : kernel function (2)$
α , σ 和 b 是训练数据后产生的值。
可以通过调节 σ 来匹配维度的大小， σ 越大，维度越低。

核心思想

SVM的目的是要找到一个线性分类的最佳超平面 f(x)=xwT+b=0 。求 w 和 b 。
首先通过两个分类的最近点，找到 f(x) 的约束条件。
有了约束条件，就可以通过拉格朗日乘子法和KKT条件来求解，这时，问题变成了求拉格朗日乘子 αi 和 b 。
对于异常点的情况，加入松弛变量 ξ 来处理。
使用SMO来求拉格朗日乘子 αi 和 b 。这时，我们会发现有些 αi=0 ，这些点就可以不用在分类器中考虑了。
惊喜! 不用求 w 了，可以使用拉格朗日乘子 αi 和 b 作为分类器的参数。
非线性分类的问题：映射到高维度、使用核函数。

详解

线性分类及其约束条件

SVM的解决问题的思路是找到离超平面的最近点，通过其约束条件求出最优解。
Figure SVM 1
对于训练数据集T，其数据可以分为两类C1和C2。
对于函数： f(x)=xwT+b
对于C1类的数据 xwT+b⩾1 。其中至少有一个点 xi ， f(xi)=1 。这个点称之为最近点。
对于C2类的数据 xwT+b⩽−1 。其中至少有一个点 xi ， f(xi)=−1 。这个点称也是最近点。
上面两个约束条件可以合并为：
yif(xi)=yi(xiwT+b)⩾1 。
yi 是点 xi 对应的分类值（-1或者1）。
求 w 和 b .
则超平面函数是 xwT+b=0 。
为了求最优的f(x)，期望训练数据中的每个点到超平面的距离最大。
（解释1: 这里需要理解一个事情，根据上图，我们可以给每个点做一条平行于超平面的平行线（超平行面），因此，这个最大化相当于求最近点到超平面距离的最大化。）

总结，现在我们的公式是：
Formula 6.1

f (x) = x w T + b subject to y i f (x i) = y i (x i w T + b) ⩾ 1, i = 1, . . ., n (3)

几个训练脑筋的小问题：

Q: y是否可以是其它非{-1， 1}的值?
A: 将y值定义为{-1， 1}是最简化的方案。你的分类可以是cat和dog，只要将cat对应到1, dog对应到-1就可以了。你也可以将y值定义为其它数比如: -2, 2或者2, 3之类的，但是这样就需要修改超平面函数和约束条件，增加了没必要的繁琐，实际上和y值定义为{-1， 1}是等价的。
Q: 如果两组数据里的太近或者太远，是不是可能就找不到 xwT+b=1 和 xwT+b=−1 的这两个点？
A: 不会。假设可以找到 xiwT+b=c 和 xjwT+b=−c . c>0andc<>1 。其超平面函数为 xwT+b=0 .
上面公式左右同时除以c, 则：
xiwT/c+b/c=1
xjwT/c+b/c=−1
令:
w′=w/c
b′=b/c
有:
xiw′T+b′=1
xjw′T+b′=−1
可以找到超平面函数:
xwT+b′=0
因此，总是可以找到y是{-1, 1}的超平面，如果有的话。

最大几何间隔（geometrical margin）

f(x) 为函数间隔 γ 。
如果求 max yf(x) ，有个问题，就是w和b可以等比例增大，导致 yf(x) 的间隔可以无限大。因此需要变成求等价的最大几何间隔：

γ ¯ = y f ( x ) ∥ w ∥ subject to y i f (x i) = y i (x i w T + b) ⩾ 1, i = 1, . . ., n (4)

∥w∥ ∥w∥ : 二阶范数，也就是各项目平方和的平方根。

∑ni=1w2i−−−−−−−√ ∑i=1nwi2

根据上面的解释，这个问题可以转变为：

max 1 ∥ w ∥ subject to y i (x i w T + b) ⩾ 1, i = 1, . . ., n (5)

再做一次等价转换：
Formula 6.2

min 1 2 ∥ w ∥ 2 subject to y i (x i w T + b) ⩾ 1, i = 1, . . ., n (6)

求解问题 w,b⇔αi,b

我们使用拉格朗日乘子法和KKT条件来求 w 和 b ，一个重要原因是使用拉格朗日乘子法后,还可以解决非线性划分问题。
拉格朗日乘子法和KKT条件可以解决下面这个问题：

求一个最优化问题 f(x)
刚好对应我们的问题： min12∥w∥2
如果存在不等式约束 gk(x)<=0,k=1,…,q 。
对应 subject to 1−yi(xiwT+b)<=0,i=1,...,n
F(x)必须是凸函数。这个也满足。

SVM的问题满足使用拉格朗日乘子法的条件。因此问题变成：
Formula 6.3

m a x α W (α) = L (w, b, α) = 1 2 ∥ w ∥ 2 - \sum n i = 1 α i (y i (x i w T + b) - 1) subject to α i > = 0, i = 1, . . ., n \sum n i = 1 α i y i = 0 1 - y i (x i w T + b) < = 0, i = 1, . . ., n w = \sum n i = 1 α i y i x i here α i : Lagrange multiplier of training data i (7)

消除 w 之后变为：
Formula 6.4

m a x α W (α) = L (w, b, α) = \sum n i = 1 α i - 1 2 \sum n i, j = 1 α i α j y i y j x T i x j subject to α i > = 0, i = 1, . . ., n \sum n i = 1 α i y i = 0 α i (1 - y i (\sum n j = 1 α j y j ⟨ x j, x i ⟩ + b)) = 0, i = 1, . . ., n (8)

⟨xj,xi⟩ ⟨xj,xi⟩是

xj xj 和

xi xi的内积，相当于

xixTj xixjT。
可见使用拉格朗日乘子法和KKT条件后，求

w,b w,b的问题变成了求拉格朗日乘子

αi αi和

b b的问题。
到后面更有趣，变成了不求

w w了，因为

αi αi可以直接使用到分类器中去，并且可以使用

αi αi支持非线性的情况（

xwT+b xwT+b是线性函数，支持不了非线性的情况哦）。

以上的具体证明请看：
解密SVM系列（二）：SVM的理论基础
关于拉格朗日乘子法和KKT条件，请看：
深入理解拉格朗日乘子法（Lagrange Multiplier)和KKT条件

处理异常点（outliers）

outliers image
如上图：点w是一个异常点，导致无法找到一个合适的超平面，为了解决这个问题，我们引入松弛变量(slack variable) ξ 。
修改之间的约束条件为： xiwT+b>=1–ξifor all i = 1, …, n
则运用拉格朗日乘子法之后的公式变为：
Formula 6.5

m a x α W (α) = L (w, b, α) = \sum n i = 1 α i - 1 2 \sum n i, j = 1 α i α j y i y j x j x T i subject to 0 ⩽ α i ⩽ C, i = 1, . . ., n \sum n i = 1 α i y i = 0 α i (1 - y i (\sum n j = 1 α j y j ⟨ x j, x i ⟩ + b)) = 0, i = 1, . . ., n (9)

输入参数：

参数 C ，越大表明影响越严重。 C 应该一个大于0值。其实 C 也不能太小，太小了就约束 αi 了，比如200。
参数 ξ ，对所有样本数据起效的松弛变量，比如：0.0001。
具体证明请看：
解密SVM系列（二）：SVM的理论基础

求解 α - 使用SMO方法

1996年，John Platt发布了一个称为SMO的强大算法，用于训练SVM。SMO表示序列最小优化（Sequential Minimal Optimization）。
SMO方法：
概要：SMO方法的中心思想是每次取一对 αi 和 αj ，调整这两个值。
参数: 训练数据/分类数据/ C / ξ /最大迭代数
过程：

初始化 α 为0；
在每次迭代中（小于等于最大迭代数），
- 找到第一个不满足KKT条件的训练数据，对应的 αi ，
- 在其它不满足KKT条件的训练数据中，找到误差最大的x，对应的index的 αj ，
- αi 和 αj 组成了一对，根据约束条件调整 αi , αj 。

不满足KKT条件的公式：
Formula 6.6

(1) y i (u i - y i) ⩽ ξ and α i < C (2) y i (u i - y i) ⩾ ξ and α i > 0 h e r e u i = \sum n j = 1 α j y j K (x j, x i) + b K (x 1, x 2) = ⟨ x 1, x 2 ⟩ ξ : slack variable (10)

调整公式：
Formula 6.7

α n e w 2 = α o l d 2 - y 2 ( E 1 - E 2 ) η α n e w 1 = α o l d 1 + y 1 y 2 (α o l d 2 - α n e w 2) b 1 = b o l d - E 1 - y 1 (α n e w 1 - α o l d 1) K (x 1, x 1) - y 2 (α n e w 2 - α o l d 2) K (x 1, x 2) b 2 = b o l d - E 2 - y 1 (α n e w 1 - α o l d 1) K (x 1, x 2) - y 2 (α n e w 2 - α o l d 2) K (x 2, x 2) b = ⎧ ⎩ ⎨ ⎪ ⎪ b 1 b 2 b 1 + b 2 2 if 0 ⩽ α n e w 1 ⩽ C if 0 ⩽ α n e w 2 ⩽ C otherwise h e r e E i = u i - y i η = 2 K (x 1, x 2) - K (x 1, x 1) - K (x 2, x 2) u i = \sum n j = 1 α j y j K (x j, x i) + b K (x 1, x 2) = ⟨ x 1, x 2 ⟩ (11)

具体证明请参照:
解密SVM系列（三）：SMO算法原理与实战求解

最后一步：解决非线性分类

根据机器学习的理论，非线性问题可以通过映射到高维度后，变成一个线性问题。
比如：二维下的一个点 <x1,x2> , 可以映射到一个5维空间，这个空间的5个维度分别是: x1,x2,x1x2,x12,x22 。
映射到高维度，有两个问题：一个是如何映射？另外一个问题是计算变得更复杂了。
幸运的是我们可以使用核函数(Kernel function)来解决这个问题。
核函数(kernel function)也称为核技巧(kernel trick)。
核函数的思想是：

仔细观察Formula 6.6 和 Formula 6.7，就会发现关于向量 x 的计算，总是在计算两个向量的内积 K(x1,x2)=⟨x1,x2⟩ 。
因此，在高维空间里，公式的变化只有计算低维空间下的内积 ⟨x1,x2⟩ 变成了计算高维空间下的内积 ⟨x′1,x′2⟩ 。
核函数提供了一个方法，通过原始空间的向量值计算高维空间的内积，而不用管映射的方式。
我们可以用核函数代替 K(x1,x2) 。