支持向量机 SVM 机器学习基础(6)

最新推荐文章于 2022-10-20 18:09:28 发布

海上机械师

最新推荐文章于 2022-10-20 18:09:28 发布

阅读量1.3k

点赞数 2

分类专栏：算法机器学习文章标签：机器学习支持向量机 SVM LIBSVM 监督学习

本文链接：https://blog.csdn.net/i_love_home/article/details/50756549

版权

算法同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

机器学习

15 篇文章 0 订阅

订阅专栏

支持向量机（Support vector machines, SVM）

支持向量机提出了一种聪明的优化目标（pose a cleverly-chosen optimization objective），它是目前最流行应用最广的学习算法之一。这里有 July 写的 支持向量机通俗导论（理解SVM的三层境界）供大家阅读。

大间距分类器

优化目标

代价函数：

$J (θ) = - y log h θ (x) + (1 - y) log (1 - h θ (x)) h θ (x) = 1 1 + e - θ T x cost 1 (z) = - log h θ (x), cost 0 (z) = - log (1 - h θ (x))$ $J\left( \theta \right) = - y\log {h_\theta }\left( x \right) + \left( {1 - y} \right)\log \left( {1 - {h_\theta }\left( x \right)} \right) \\ {h_\theta }\left( x \right) = \frac{1}{{1 + {e^{ - {\theta ^T}x}}}} \\ {\operatorname{cost} _{\text{1}}}\left( z \right) = - \log {h_\theta }\left( x \right),{\operatorname{cost} _0}\left( z \right) = - \log \left( {1 - {h_\theta }\left( x \right)} \right)$
目标方程：

$min θ J = 1 m [\sum i = 0 m y (i) cos t 1 (θ T x (i)) + (1 - y (i)) cos t 0 (θ T x (i))] + λ 2 m \sum j = 1 n θ 2 j - \to - - - - - - - J = J \cdot m λ, c = 1 λ J = c [\sum i = 0 m y (i) cos t 1 (θ T x (i)) + (1 - y (i)) cos t 0 (θ T x (i))] + 1 2 \sum j = 1 n θ 2 j$ ${\min _\theta } J = \frac{1}{m}\left[ {\sum\limits_{i = 0}^m {{y^{\left( i \right)}}{\text{cos}}{{\text{t}}_1}\left( {{\theta ^{\rm T}}{x^{\left( i \right)}}} \right) + \left( {1 - {y^{\left( i \right)}}} \right){\text{cos}}{{\text{t}}_0}\left( {{\theta ^{\rm T}}{x^{\left( i \right)}}} \right)} } \right] + \frac{\lambda }{{2m}}\sum\limits_{j = 1}^n {\theta _j^2} \\ ~~~~~~ \xrightarrow{{J = J \cdot \frac{m}{\lambda },{\kern 1pt} {\kern 1pt} {\kern 1pt} c = \frac{1}{\lambda }}}J = c\left[ {\sum\limits_{i = 0}^m {{y^{\left( i \right)}}{\text{cos}}{{\text{t}}_1}\left( {{\theta ^{\rm T}}{x^{\left( i \right)}}} \right) + \left( {1 - {y^{\left( i \right)}}} \right){\text{cos}}{{\text{t}}_0}\left( {{\theta ^{\rm T}}{x^{\left( i \right)}}} \right)} } \right] + \frac{1}{2}\sum\limits_{j = 1}^n {\theta _j^2}$

大间距指导

SVM又被称为大间距分类器。

1 支持向量机

min c \sum i = 0 m [y (i) cos t 1 (θ T x (i)) + (1 - y (i)) cos t 0 (θ T x (i))] + 1 2 \sum j = 1 n θ 2 j

支持向量机间距

2 SVM决策边界

min c \sum i = 0 m [y (i) cos t 1 (θ T x (i)) + (1 - y (i)) cos t 0 (θ T x (i))] + 1 2 \sum j = 1 n θ 2 j s . t . θ T x (i) ⩾ + 1, i f y (i) = 1 - \to - - e q u a l y (i) = 1 θ T x (i) ⩽ - 1, i f y (i) = 0 - \to - - e q u a l y (i) = 0

$\min c\sum\limits_{i = 0}^m {\left[ {{y^{\left( i \right)}}{\text{cos}}{{\text{t}}_1}\left( {{\theta ^{\rm T}}{x^{\left( i \right)}}} \right) + \left( {1 - {y^{\left( i \right)}}} \right){\text{cos}}{{\text{t}}_0}\left( {{\theta ^{\rm T}}{x^{\left( i \right)}}} \right)} \right]} + \frac{1}{2}\sum\limits_{j = 1}^n {\theta _j^2} \\ {\text{s}}.t. ~~~ {\theta ^{\rm T}}{x^{\left( i \right)}} \geqslant + 1,if{\kern 1pt} {y^{\left( i \right)}} = 1\xrightarrow{{equal}}{y^{\left( i \right)}} = 1 \\ ~~~~~~~~~~ {\theta ^{\rm T}}{x^{\left( i \right)}} \leqslant - 1,if{\kern 1pt} {y^{\left( i \right)}} = 0\xrightarrow{{equal}}{y^{\left( i \right)}} = 0$

当常数 $c$ 很大时，目标函数近似为

min c \times 0 + 1 2 \sum j = 1 n θ 2 j ⎛ ⎝ \approx 1 2 \sum j = 1 n θ 2 j ⎞ ⎠ s . t . θ T x (i) ⩾ + 1, i f y (i) = 1 θ T x (i) ⩽ - 1, i f y (i) = 0

$\min c \times 0 + \frac{1}{2}\sum\limits_{j = 1}^n {\theta _j^2} \left( { \approx \frac{1}{2}\sum\limits_{j = 1}^n {\theta _j^2} } \right) \\ {\text{s}}.t. ~{\theta ^{\rm T}}{x^{\left( i \right)}} \geqslant + 1,if{\kern 1pt} {y^{\left( i \right)}} = 1 \\ ~~~~~~~~{\theta ^{\rm T}}{x^{\left( i \right)}} \leqslant - 1,if{\kern 1pt} {y^{\left( i \right)}} = 0$

求得该优化目标，得到的结果就是最大间隔。

最大间隔

3 针对异常值

异常值间隔

通过调整 $c$ 的大小，减少异常值对分类器的影响。

大间距分类器下的数学

本模块描述了 SVM 的数学原理，主要包含向量间距的内积表述。

1 向量内积

u T v = = p ∥ u ∥ u 1 v 1 + u 2 v 2

$\begin{aligned} {u^{\text{T}}}v = & p\left\| u \right\| \\ = & {u_1}{v_1} + {u_2}{v_2} \\ \end{aligned}$

其中，

u = [u 1 u 2] T v = [v 1 v 2] T

$u = {\left[ {\begin{array}{*{20}{c}} {{u_1}}&{{u_2}} \end{array}} \right]^{\text{T}}}\\ v = {\left[ {\begin{array}{*{20}{c}} {{v_1}}&{{v_2}} \end{array}} \right]^{\text{T}}}$

2 SVM 决策边界

min 1 2 \sum j = 1 n θ 2 j - \to - - - - - - - - - - = 1 2 (\sum n j = 1 θ 2 j \sqrt) 2 1 2 ∥ θ ∥ 2 s . t . θ T x (i) ⩾ + 1, i f y (i) = 1 θ T x (i) ⩽ - 1, i f y (i) = 0

$\begin{aligned} \min \frac{1}{2}\sum\limits_{j = 1}^n {\theta _j^2} \xrightarrow{{ = \frac{1}{2}{{\left( {\sqrt {\sum\nolimits_{j = 1}^n {\theta _j^2} } } \right)}^2}}}\frac{1}{2}{\left\| \theta \right\|^2} \\ {\text{s}}.t. {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\theta ^{\rm T}}{x^{\left( i \right)}} \geqslant + 1,if{\kern 1pt} {y^{\left( i \right)}} = 1 \\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\theta ^{\rm T}}{x^{\left( i \right)}} \leqslant - 1,if{\kern 1pt} {y^{\left( i \right)}} = 0 \\ \end{aligned}$

当 $n = 2$ 时，其表达式与几何图形如下所示，

向量点乘几何

θ T x (i) = p (i) ∥ θ ∥ = θ 1 x 1 + θ 2 x 2

${\theta ^{\text{T}}}{x^{\left( i \right)}} = {p^{\left( i \right)}}\left\| \theta \right\| = {\theta _1}{x_1} + {\theta _2}{x_2}$

其中，

θ T x (i) ⩾ 1 ⇓ e q u a l p (i) ∥ θ ∥ ⩾ 1

$\begin{array}{*{20}{c}} {{\theta ^{\text{T}}}{x^{\left( i \right)}} \geqslant 1} \\ { \Downarrow equal} \\ {{p^{\left( i \right)}}\left\| \theta \right\| \geqslant 1} \end{array}$

由此，我们可以把目标方程转换成新的形式，即

min s . t . 1 2 ∥ θ ∥ 2 p (i) ∥ θ ∥ ⩾ + 1, i f y (i) = 1 p (i) ∥ θ ∥ ⩽ - 1, i f y (i) = 0

$\begin{aligned} \min & \frac{1}{2}{\left\| \theta \right\|^2} \\ {\text{s}}.t. ~ &{p^{\left( i \right)}}\left\| \theta \right\| \geqslant + 1,if{\kern 1pt} {y^{\left( i \right)}} = 1 \\ & {p^{\left( i \right)}}\left\| \theta \right\| \leqslant - 1,if{\kern 1pt} {y^{\left( i \right)}} = 0 \\ \end{aligned}$

接下来，我们通过 $n = 2$ 的几何图像表述的方法来描述这个方程与间距量的关系，

向量与间距

我们假定 ${p^{\left( i \right)}}\left\| \theta \right\| \geqslant + 1$ ，则当
1) ${p^{\left( i \right)}}$ 较大时， $\left\| \theta \right\|$ 较小，即目标值 $\frac{1}{2}{\left\| \theta \right\|^2}$ 较小；
2) ${p^{\left( i \right)}}$ 较小时， $\left\| \theta \right\|$ 较大，即目标值 $\frac{1}{2}{\left\| \theta \right\|^2}$ 较大。
因此，我们可以发现，2) 的情况相比于 1) 更优，即目标值更小，代表的意义是间距更大。

核函数

核函数 1

在 SVM 中采用“核函数”，使其被构造成为一种复杂的非线性分类器，相对应的，得到非线性决策边界。

1 非线性决策边界

类似逻辑回归中的决策边界 ${h_\theta }\left( x \right)$ ，对于非线性的的 ${h_\theta }\left( x \right)$ ，例如

h θ (x) y y = θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 1 x 2 + θ 4 x 21 + θ 5 x 22 + \dots = 1 \leftarrow h θ (x) ⩾ 0 = 0 \leftarrow h θ (x) < 0

$\begin{aligned} {h_\theta }\left( x \right) & = {\theta _0} + {\theta _1}{x_1} + {\theta _2}{x_2} + {\theta _3}{x_1}{x_2} + {\theta _4}x_1^2 + {\theta _5}x_2^2 + \cdots \\ y & = 1 \leftarrow {h_\theta }\left( x \right) \geqslant 0 \\ y & = 0 \leftarrow {h_\theta }\left( x \right) < 0 \\ \end{aligned}$

非线性决策边界

2 核函数

核函数的实质，是一种定义特征的方法，原有特征记作 x，新特征记作 f。根据原有特征计算得到新的特征。

其中一种定义（或称之为“计算”）的方法是相似度映射，记作

x - \to - l (i) f

${\mathbf{x}}\xrightarrow{{{l^{(i)}}}}{\mathbf{f}}$

其中 $l^{(i)}$ 是特征标记（或称为基），一般可以取 $l^{(i)} = x^{(i)}$ 。

新特征 ${\mathbf{f}}$ 的计算形式为

f i = i = s i m i l a r i t y (x, l (i)) = e (- ∥ ∥ x - l ( i ) ∥ ∥ 2 σ 2) 1, 2, \dots

$\begin{aligned} {f_i} = & similarity\left( {x,{l^{\left( i \right)}}} \right) = {e^{\left( {\frac{{ - \left\| {x - {l^{\left( i \right)}}} \right\|}}{{2{\sigma ^2}}}} \right)}} \\ i = & 1,2, \cdots \\ \end{aligned}$

其中，similarity 可以被称作是一种核函数，上式的核函数是高斯核函数（Gaussian kernel），核函数记作 $K(x, l^{(i)})$ 。

3 高斯核函数

高斯核函数类似高斯密度函数，呈钟形。

高斯核函数

最终，我们通过核函数 $K(x, l^{(i)})$ 得到关于 $x$ 的新特征集合 ${f_i}$ ，可以想象，这是一个非线性化过程。

核函数 2

在该模块中， SVM 中应用核函数，讨论权衡偏差、方差的问题。

1 选择标记点

在 SVM 的基中， $l^{(i)} = x^{(i)}$ ，使得新特征 $f_i$ 表示为 $x^{(i)}$ 与其他数据的离散程度，即每一个样本与其他样本的距离。

2 带核函数的 SVM

给定样本： $\left( {{x^{\left( 1 \right)}},{y^{\left( 1 \right)}}} \right), \cdots ,\left( {{x^{\left( m \right)}},{y^{\left( m \right)}}} \right)$
选择标记点： ${l^{\left( 1 \right)}} = {x^{\left( 1 \right)}}, \cdots ,{l^{\left( m \right)}} = {x^{\left( m \right)}}$
特征映射： $f_j^{\left( i \right)} = K\left( {{x^{\left( i \right)}},{l^{\left( j \right)}}} \right),f_0^{\left( i \right)} = 1$ $~{f^{\left( i \right)}} = {\left[ {\begin{array}{*{20}{c}} {f_0^{\left( i \right)}}&{f_1^{\left( i \right)}}&{f_2^{\left( i \right)}}& \cdots &{f_m^{\left( i \right)}} \end{array}} \right]^{\text{T}}}$
特征向量： ${x^{\left( i \right)}} \in {\mathbb{R}^{n + 1}} \to {f^{\left( i \right)}} \in {\mathbb{R}^{m + 1}}$
参数 $\theta$ ： $\theta \in {\mathbb{R}^{m + 1}}$

最终，我们得到了关于新特征 $f^{(i)}$ 与参数 $\theta$ 的目标方程：

min θ c \sum i = 1 m y (i) cost 1 (θ T f (i)) + (1 - y (i)) cost 0 (θ T f (i)) + 1 2 \sum j = 1 m θ 2 j

$\mathop {\min {\kern 1pt} }\limits_\theta ~ c\sum\limits_{i = 1}^m {{y^{\left( i \right)}}{{\operatorname{cost} }_1}\left( {{\theta ^{\text{T}}}{f^{\left( i \right)}}} \right) + \left( {1 - {y^{\left( i \right)}}} \right){{\operatorname{cost} }_0}\left( {{\theta ^{\text{T}}}{f^{\left( i \right)}}} \right)} + \frac{1}{2}\sum\limits_{j = 1}^m {\theta _j^2}$

值得注意的事，当 $m$ 很大时， $\sum\nolimits_{j = 1}^m {\theta _j^2} = {\theta ^{\text{T}}}\theta = {\left\| \theta \right\|^2}$ 的计算复杂度会很大，其优化的计算方法是 ${\theta ^{\text{T}}}{\mathbf{M}}\theta$ ，改变数值，但不影响目标方程的优化求解。

3 SVM 参数

该模块讨论支持向量机的参数对算法的偏差、方差的关系。

c (1/λ) $c~(1/\lambda)$

c $c$ 过大，可能引起低偏差、高方差，同样地，增大

c $c$ 可以降低偏差；

c $c$ 过小，可能引起高偏差、低方差，同样地，减少

c $c$ 可以降低方差。

σ2 ${\sigma ^2}$ 高斯核

σ2 ${\sigma ^2}$ 过大，高斯核函数会变得平滑，可能引起高偏差、低方差；

σ2 ${\sigma ^2}$ 过小，高斯核函数会变得陡峭，可能引起低偏差、高方差，适用于偏差、方差调整。（在“高斯核函数”小节中有函数示意图）

SVM 实践

使用 SVM

熟悉使用 SVM 软件包 liblinear/libsvm 去求解参数 $\theta$ ，是非常有利于工作的，liblinear 可以从这里下载到，libsvm 可以从这里下载到。

当然，我们必需学习一些如何使用软件包的知识：

选择参数 $c$
选择核函数（可称作相似度函数），核函数包括无核（线性核，Linear Kernel， ${\theta ^{\text{T}}}x$ ）、高斯核（标记点的选择，参数 ${\sigma ^2}$ ）等的函数。无核函数适用于 $n$ 很大， $m$ 很小的情况；高斯核函数，适用于 $n$ 很小， $m$ 很大的情况。

1 核（相似度）函数

function f = kernel(x1, x2)
    f = exp(-||x1 - x2||/(2 ))
return

注意：在使用高斯核前，有必要对特征进行归一化，防止大数特征“吃了”小数特征。

2 其它的核函数

任何一个相似度函数作为一个有效的核函数，必须满足默塞尔定理（Mercer’s Theorem）。这是为了保证 SVM 的软件包能够利用内部的数值计算的优化方法进行有效的求解。

适用的核函数包含：

多项式核函数 Polynomial kernel： $K(x, l) = (x^Tl + c)^d$
字符串核函数 String kernel：文本分类，两字符串的相似度
卡方核函数 Chi-square
直方图交叉核函数 Histogram intersection kernel

3 多类别分类器

$y \in \left\{ {1,2,3, \cdots ,k} \right\}$

SVM 软件包内置多类别的分类器。另外，一对多分类方法（One-vs.-all Method）进行多类别分类，需要训练 ${0-1} k$ 次。

多类别

4 逻辑回归 vs. SVMs + 神经网络

$n$ 为特征数（ $x \in {\mathbb{R}^{n + 1}}$ ）， $m$ 为训练集样本数。

$n$ 很大，近似等于 $m$: 使用逻辑回归或者无核的 SVM（“Linear kernel”）。
$n$ 很小， $m$ 数量中等: 使用高斯核的 SVM，或者可以尝试神经网络。
$n$ 很小， m <script type="math/tex" id="MathJax-Element-2246">m</script> 很大: 定值/增加更多多特征数，然后采用逻辑回归或者无核的 SVM。