SVM算法1

最新推荐文章于 2024-06-19 23:40:42 发布

逍遥游07

最新推荐文章于 2024-06-19 23:40:42 发布

阅读量3k

点赞数

分类专栏：机器学习文章标签：分类器 svm

本文链接：https://blog.csdn.net/kesonyk/article/details/46404531

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

    支持向量机（support vector machines,SVM）是一种二类分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划（convex quardratic）的问题,也等价于正则化的合页损失函数的最小化问题。
    支持向量机学习方法包含构建由简到繁的模型，线性可分支持向量机，线性支持向量机及非线性支持向量机。简单模型是复杂模型的基础，也是复杂模型的特殊情况。
    当训练数据线性可分时，通过硬间隔最大化（hard margin maximization），学习一个线性的分类器，即线性可分支持向量机，又称为硬间隔支持向量机；
    当训练数据近似线性可分时，通过软间隔最大化（soft margin maximization）学习一个线性的分类器，即线性支持向量机，又称为软间隔支持向量机；
    当训练数据线性不可分时，通过使用核技巧（kernel trick）及软间隔最大化，学习非线性支持向量机。
    当输入空间为欧式空间或离散集合，特征空间为希尔伯特空间时，核函数（kernel function）表示将输入从输入空间映射到特征空间得到的特征向量之间的内积。通过使用核函数可以学习非线性向量机，等价于隐式地在高维的特征空间中学习线性支持向量机。这样的方法称为核技巧。核方法（kernel method）是比支持向量机更为一般的机器学习方法。

1线性可分支持向量机与硬间隔最大化

1.1线性可分支持向量机

    考虑一个二类分类问题，假设输入空间与特征空间为两个不同的空间，输入空间为欧氏空间或离散集合，特征空间为欧氏空间或希尔伯特空间，线性支持向量机假设这两个空间的元素一一对应，并将输入空间中的输入映射为特征空间中的特征向量。所以，输入都由输入空间转换到特征空间，支持向量机的学习是在特征空间里进行的。
    假设给定一个特征空间上的训练数据集

T = {(x 1, y 1), (x 2, y 2), . . ., (x N, y N)}

$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 其中，

xi∈Rn,yi∈{+1,−1} $x_i \in \bf R^n , \it y_i \in \{+1,-1\}$
学习的目标是在特征空间中找到一个分离超平面，能将实例分到不同的类，分离超平面对应于方程

w⋅x+b=0 $w\cdot x+b=0$ ,它由法向量

w $w$ 和截距

b $b$ 决定，可用

(w,b) $(w,b)$ 来表示。分离超平面将特征空间划分为两部分。一部分是正类，一部分是负类，法向量指向的一侧为正类，另一类是负类。
一般地，当训练数据集线性可分时，存在无穷多个分离超平面可将两类数据正确分开。感知机利用误分类最小的策略，求的分离超平面，不过这时的解有无穷多个。线性可分支持向量机利用间隔最大化求最优分离超平面，这时，解是唯一的。

1.1定义（线性可分支持向量机）给定线性可分训练数据集，通过间隔最大化或等价求解相应的凸二次规划问题学习得到的分离超平面为

w * \cdot x + b * = 0

$w^*\cdot x+b^*=0$ 以及相应的分类决策函数

f (x) = s i g n (w * \cdot x + b *)

$f(x)=sign(w^*\cdot x+b^*)$ 称为线性可分支持向量机

1.2函数间隔和几何间隔

在超平面 $w\cdot x+b=0$ 确定的情况下， $|w\cdot x+b|$ 能够相对地表示点 $x$ 距离超平面的远近，而 $w\cdot x+b$ 的符号与类标记 $y$ 的符号是否一致能够表示分类是否正确，所以可用量 $y(w\cdot x+b)$ 来表示分类的正确性及确信度，这就是函数间隔（function margin）

1.2定义（函数间隔）对于给定的训练数据集 $T$ 和超平面 $(w,b)$ ，定义超平面 $(w,b)$ 关于样本点 $(x_i,y_i)$ 的函数间隔为 $γ i^= y i (w \cdot x i + b)$ $\hat{\gamma_i}=y_i(w\cdot x_i+b)$

定义超平面 $(w,b)$ 关于训练数据集 $T$ 的函数间隔为超平面 $(w,b)$ 关于 $T$ 中所有样本点 $(w_i,y_i)$ 的函数间隔之最小值，即

γ ̂ = min i = 1, . . ., N γ i^

$\hat{\gamma}=\min \limits_{i=1,...,N} \hat{\gamma_i}$ 函数间隔可以表示分类预测的正确性及确信度，但是选择分离超平面时，只有函数间隔还不够。因为只要成比例地改变

w $w$ 和

b $b$ ，超平面并没有改变，但函数间隔缺称为原来的2倍，这一事实启示我们，可以对分离超平面的发向量

w $w$ 加某些约束，如规范化，

||w||=1 $||w||=1$ ，使得间隔是确定的。这时函数间隔称为几何间隔(geometric margin)

1.3定义(几何间隔)对于给定的训练数据集 $T$ 和超平面 $(w,b)$ ，定义超平面 $(w,b)$ 关于样本点的几何间隔为 $γ i = y i (w | | w | | \cdot x i + b | | w | |)$ $\gamma_i=y_i(\frac{w}{||w||}\cdot x_i+\frac{b}{||w||})$ 定义超平面 $(w,b)$ 关于训练数据集 $T$ 的几何间隔为超平面 $(w,b)$ 关于 $T$ 所有样本点 $(w_i,y_i)$ 的几何间隔之最小值，即 $γ = min i = 1, . . N γ i$ $\gamma=\min \limits_{i=1,..N} \gamma_i$

超平面 $(w,b)$ 关于样本点 $(x_i,y_i)$ 的几何间隔一般是实例点到超平面的带符号的距离，当样本点被超平面正确分类时就是实例点到超平面的距离

1.3间隔最大化

支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面，对线性可分的训练数据而言，线性可分分离超平面有无穷多个，但是几何间隔最大的分离超平面是唯一的。这里的间隔最大化又称为硬间隔最大化
间隔最大化的直观解释是：对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类。不仅将正负实例点分开，而且对最难分的实例点（离超平面最近的点）也有足够大的确信度将它们分开。

1.3.1最大间隔分离超平面

最大间隔分离超平面可以表示为下面的约束最优化问题：

max w, b γ

$\max \limits_{w,b} \gamma$

s . t . y i (w | | w | | \cdot x i + b | | w | |) \geq γ, i = 1, 2, . . ., N

$s.t. y_i(\frac{w}{||w||}\cdot x_i+\frac{b}{||w||})\geq\gamma, i=1,2,...,N$ 即我们希望最大化超平面

(w,b) $(w,b)$ 关于训练数据集的几何间隔

γ $\gamma$ ，约束条件表示的是超平面

(w,b) $(w,b)$ 关于训练样本点的几何间隔至少是

γ $\gamma$
考虑几何间隔和函数间隔的关系式，可将这个问题改写为

max w, b γ ̂ | | w | |

$\max \limits_{w,b} \frac{\hat{\gamma}}{||w||}$

s . t . y i (w \cdot x i + b) \geq γ ̂, i = 1, 2, . ., N

$s.t. y_i(w\cdot x_i+b)\geq\hat{\gamma},i=1,2,..,N$ 函数间隔

γ̂ $\hat{\gamma}$ 的取值并不影响最优化问题的解。事实上，假设将

w $w$ 和

b $b$ 按比例改变为

λw $\lambda w$ 和

λb $\lambda b$ ,这时函数间隔称为

λγ̂ $\lambda \hat{\gamma}$ ，函数间隔的这一改变对上面最优化问题的不等式约束没有影响，对目标函数的优化也没有影响，也就是说它产生一个等价的最优化问题。这样，就可以取

γ̂ =1 $\hat{\gamma}=1$ ，注意最大化

1||w|| $\frac{1}{||w||}$ 和最小化

12||w||2 $\frac{1}{2}||w||^2$ 是等价的。于是就得到过下面的线性可分支持向量机学习的最优化问题

min w, b 1 2 | | w | | 2

$\min \limits_{w,b} \frac{1}{2}||w||^2$

s . t . y i (w \cdot x i + b) - 1 \geq 0, i = 1, 2, . . ., N

$s.t. y_i(w \cdot x_i+b)-1\geq0,i=1,2,...,N$ 这是一个凸二次规划问题。
凸优化问题是指约束最优化问题

min w f (w)

$\min \limits_{w} f(w)$

s . t . g i (w) \leq 0, i = 1, 2, . ., k

$s.t.g_i(w)\leq0,i=1,2,..,k$

h i (w) = 0, i = 1, 2, . ., l

$h_i(w)=0,i=1,2,..,l$ 其中，目标函数

f(w) $f(w)$ 和约束函数

gi(w) $g_i(w)$ 是连续可微的凸函数，约束函数

hi(w) $h_i(w)$ 是

Rn $\bf R^n$ 上的仿射函数。
如果求出了约束最优化问题的解

w∗,b∗ $w^*,b^*$ ,那么就可以得到最大间隔分离超平面

w∗⋅x+b∗=0 $w^*\cdot x+b^*=0$ 及分类决策函数

f(x)=sign(w∗⋅x+b∗) $f(x)=sign(w^*\cdot x+b^*)$ ,及线性可分支持向量机模型。
综上所述，就有了线性可分支持向量机的学习算法—最大间隔法

1.3.2支持向量和间隔边界

在线性可分情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量（support vector）。支持向量是使约束条件式 $y_i(w\cdot x_i+b)-1=0$ 成立的点。在决定分离超平面时只有支持向量起作用，而其他实例点并不起作用，如果移动支持向量则将改变所求解的解；但如果在间隔边界以外移动其他实例点，则解是不会改变的

1.4 拉格朗日对偶性

在约束最优化问题中，常常利用拉格朗日对偶性（Lagrange duality）将原始问题转换为对偶问题，通过解对偶问题而得到原始问题的解

1.4.1原始问题

假设 $f(x),c_i(x),h_j(x)$ 是定义在 $\bf R^n$ 上的连续可微函数，考虑约束最优化问题

min x \in R n f (x)

$\min \limits_{x \in R^n} f(x)$

s . t . c i (x) \leq 0, i = 1, 2, . . ., k

$s.t. \quad c_i(x)\leq 0,\ i=1,2,...,k$

h j (x) = 0, j = 1, 2, . . ., l

$h_j(x)=0,\ j=1,2,...,l$ 称此约束最优化问题为原始最优化问题或原始问题。
首先，引进广义拉格朗日函数

L (x, α, β) = f (x) + \sum i = 1 k α i c i (x) + \sum j = 1 l β j h j (x)

$L(x,\alpha,\beta)=f(x)+\sum_{i=1}^{k}\alpha_ic_i(x)+\sum_{j=1}^{l}\beta_jh_j(x)$

αi,βj $\alpha_i,\beta_j$ 是拉格朗日乘子，

αi≥0 $\alpha_i\geq0$ 。考虑

x $x$ 的函数

Θ P (x) = max α, β : α i \geq 0 L (x, α, β)

$\Theta_P(x)=\max \limits_{\alpha,\beta:\alpha_i\geq0} L(x,\alpha,\beta)$ 这里下标P表示原始问题。
假设给定某个

x $x$ ,如果

x $x$ 违反原始问题的约束条件，即存在某个

i $i$ 使得

ci(w)>0 $c_i(w)\gt0$ 或者存在某个

j $j$ 使得

hj(w)≠0 $h_j(w)\neq0$ 那么就有

Θ P (x) = max α, β : α i \geq 0 [f (x) + \sum i = 1 k α i c i (x) + \sum j = 1 l β j h j (x)] = + \infty

$\Theta_P(x)=\max \limits_{\alpha,\beta:\alpha_i\geq0}[f(x)+\sum_{i=1}^{k}\alpha_ic_i(x)+\sum_{j=1}^{l}\beta_jh_j(x)]=+\infty$ 如果满足约束条件，则

ΘP(x)=f(x) $\Theta_P(x)=f(x)$ ，否则

ΘP(x)=+∞ $\Theta_P(x)=+\infty$
所以如果考虑极小化问题：

min x Θ P (x) = min x max α, β : α i \geq 0 L (x, α, β)

$\min \limits_{x} \Theta_P(x)=\min \limits_{x} \max \limits_{\alpha,\beta:\alpha_i\geq0} L(x,\alpha,\beta)$ 称为广义拉格朗日的极小极大问题。为了方便，定义原始问题的最优解为

p∗=minxΘP(x) $p^*=\min \limits_x \Theta_P(x)$

1.4.2对偶问题

定义 $\Theta_D(\alpha,\beta)=\min \limits_x L(x,\alpha,\beta)$ ，再考虑极大化 $\Theta_D(\alpha,\beta)$ ,即

max α, β : α i \geq 0 Θ D (α, β) = max α, β : α \geq 0 min x L (x, α, β)

$\max \limits_{\alpha,\beta:\alpha_i\geq0}\Theta_D(\alpha,\beta)=\max \limits_{\alpha,\beta:\alpha\geq0}\min \limits_x L(x,\alpha,\beta)$ 问题

maxα,β:α≥0minxL(x,α,β) $\max \limits_{\alpha,\beta:\alpha\geq0}\min \limits_x L(x,\alpha,\beta)$ 称为广义拉格朗日函数的极大极小问题。定义对偶问题的最优解

d∗=maxα,β:α≥0ΘD(α,β) $d^*=\max \limits_{\alpha,\beta:\alpha\geq0} \Theta_D(\alpha,\beta)$ 为对偶问题的值。

1.4.3原始问题和对偶问题的关系

若原始问题和对偶问题都有最优解，则

d * = max α, β : α i \geq 0 min x L (x, α, β) \leq min x max α, β : α i \geq 0 L (x, α, β) = p *

$d^*=\max \limits_{\alpha,\beta:\alpha_i\geq0} \min \limits_x L(x,\alpha,\beta)\leq\min \limits_x \max \limits_{\alpha,\beta:\alpha_i\geq0} L(x,\alpha,\beta)=p^*$

x *, α *, β *

$x^*,\alpha^*,\beta^*$ 分别是原始问题和对偶问题的解的充分必要条件是

x∗,α∗,β∗ $x^*,\alpha^*,\beta^*$ 满足下面的KKT条件

\nabla x L (x *, α *, β *) = 0

$\nabla_xL(x^*,\alpha^*,\beta^*)=0$

\nabla α L (x *, α *, β *) = 0

$\nabla_{\alpha}L(x^*,\alpha^*,\beta^*)=0$

\nabla β L (x *, α *, β *) = 0

$\nabla_{\beta}L(x^*,\alpha^*,\beta^*)=0$

α * i c i (x *) = 0, i = 1, 2, . . ., k

$\alpha_i^*c_i(x^*)=0,\quad i=1,2,...,k$

c i (x *) \leq 0, i = 1, 2, . . ., k

$c_i(x^*)\leq0,\quad i=1,2,...,k$

α * i \geq 0, i = 1, 2, . . ., k

$\alpha_i^*\geq0,\quad i=1,2,...,k$

h j (x *) = 0, j = 1, 2, . . ., l

$h_j(x^*)=0,\quad j=1,2,...,l$

1.5学习的对偶算法

首先，构建拉格朗日函数。为此，对每一个不等式约束引进拉格朗日乘子, $\alpha_i\geq0,\quad i=1,2,...,N$ 定义拉格朗日函数：

L (w, β, α) = = 1 2 | | w | | 2 - \sum i = 1 N α i y i (w \cdot x i + b) + \sum i = 1 N α i

$L(w,\beta,\alpha)==\frac{1}{2}||w||^2-\sum_{i=1}^{N}\alpha_iy_i(w\cdot x_i+b)+\sum_{i=1}^{N}\alpha_i$
根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题：

max α min w, b L (w, β, α)

$\max \limits_{\alpha} \min \limits_{w,b} L(w,\beta,\alpha)$ 所以为了得到对偶问题的解，需要先求

L(w,β,α) $L(w,\beta,\alpha)$ 对

w,b $w,b$ 的极小，再求对

α $\alpha$ 的极大
（1）求

minw,bL(w,β,α) $\min \limits_{w,b} L(w,\beta,\alpha)$
将拉格朗日函数

L(w,β,α) $L(w,\beta,\alpha)$ 分别对

w,b $w,b$ 求偏导并令其等于0.

\nabla w L (w, β, α) = w - \sum i = 1 N α i y i x i = 0

$\nabla_wL(w,\beta,\alpha)=w-\sum_{i=1}^{N}\alpha_iy_ix_i=0$

\nabla b (w, β, α) = \sum i N α i y i = 0

$\nabla_b(w,\beta,\alpha)=\sum_i^N \alpha_iy_i=0$ 或者

w = \sum i = 1 N α i y i x i

$w=\sum_{i=1}^{N}\alpha_iy_ix_i$

\sum i = 1 N α i y i = 0

$\sum_{i=1}^N\alpha_iy_i=0$

L (w, β, α) = 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i y i [(\sum j = 1 N α i y i x j) \cdot x i + b] + \sum i = 1 N α i

$L(w,\beta,\alpha)=\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_iy_i[(\sum_{j=1}^N\alpha_iy_ix_j)\cdot x_i+b]+\sum_{i=1}^N\alpha_i$