《机器学习》阅读心得——六、支持向量机

最新推荐文章于 2021-11-26 12:02:50 发布

TaoismShi

最新推荐文章于 2021-11-26 12:02:50 发布

阅读量989

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/taoismshi/article/details/76380821

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

- - 六支持向量机

六、支持向量机

6.1 间隔与支持向量

给定训练样本集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ ，分类学习的思路是在样本空间中找到一个划分超平面，将不同类别的样本分开。在样本空间中，划分超平面可通过以下方程来描述：

ω T x + b = 0 (6.1)

$\omega^T x + b = 0 \tag{6.1}$
其中

ω=(ω1;ω2;...;ωd) $\omega = (\omega_1;\omega_2;...;\omega_d)$ 为法向量。样本空间中任一点x到超平面的距离可写为

r = | ω T x + b | | | ω | | (6.2)

$r=\frac{|\omega^T x + b|}{||\omega||} \tag{6.2}$
假定超平面可以将样本正确分类，即对于

(xi,yi)∈D $(x_i,y_i)\in D$ ，若

yi=+1 $y_i = +1$ ，则有

ωTx+b>0 $\omega^T x + b > 0$ ;若有

yi=−1 $y_i = -1$ ，则有

ωTx+b<0 $\omega^T x + b < 0$ 。令

{ω T x i + b \geq + 1, ω T x i + b \leq - 1, y i = + 1 y i = - 1 (6.3)

$\begin{equation} \begin{cases} \omega^T x_i + b \geq +1, &y_i=+1 \\ \omega^T x_i + b \leq -1, &y_i=-1 \tag{6.3}\\ \end{cases} \end{equation}$
如下图所示，距离超平面最近的这些训练样本使得上式的等号成立，它们被称为“支持向量”。两个异类支持向量到超平面的距离之和为

γ = 2 | | ω | | (6.4)

$\gamma=\frac{2}{||\omega||} \tag{6.4}$
它被称为“间隔”。

支持向量与间隔
要找到具有最大间隔的超平面，需要找到符合条件的

ω $\omega$ 和

b $b$ 使得

γ $\gamma$ 最大。经简单转换我们可以得到支持向量机的基本公式

{m i n 1 2 | | ω | | 2 s . t . y i (ω T x i + b) \geq 1 (6.5)

$\begin{equation} \begin{cases} min \frac{1}{2}||\omega||^2 \\ s.t. y_i(\omega^T x_i + b) \geq 1 \tag{6.5} \end{cases} \end{equation}$

当使用拉格朗日乘子法对式(6.5)进行求解后，可以得到式(6.5)的对偶问题如下：

{m a x \sum m i = 1 α i - 1 2 \sum m i = 1 \sum m j = 1 α i α j y i y j x T i x j s . t . \sum m i = 1 α i y i = 0 (6.6)

$\begin{equation} \begin{cases} max \sum^{m}_{i=1}\alpha_i - \frac{1}{2}\sum^m_{i=1}\sum^{m}_{j=1}\alpha_i\alpha_jy_iy_jx^T_ix_j \\ s.t. \sum^m_{i=1}\alpha_iy_i=0 \tag{6.6} \end{cases} \end{equation}$
其中

αi $\alpha_i$ 是拉格朗日乘子。
解出式(6.6)可以得出支持向量机的重要性质： 训练完成后，大部分的训练样本都不需要保留，最终模型仅与支持向量有关。

6.2 核函数

当训练样本不是线性可分的，如“异或”问题，可将样本从当前空间映射到一个更高维的特征空间，使得样本在这个空间中线性可分。如果原始空间是有限维，那么一定存在一个合适的高维特征空间使得样本可分。
令 $\phi(x)$ 表示将x映射后的特征向量，在特征空间中划分超平面的模型可表示为

f (x) = ω T ϕ (x) + b (6.7)

$f(x)=\omega^T\phi(x)+b \tag{6.7}$
类似式(6.5)，可以得到

{m i n 1 2 | | ω | | 2 s . t . y i (ω T ϕ (x i) + b) \geq 1 (6.8)

$\begin{equation} \begin{cases} min \frac{1}{2}||\omega||^2 \\ s.t. y_i(\omega^T\phi (x_i) + b) \geq 1 \tag{6.8} \end{cases} \end{equation}$
该式的对偶问题是

{m a x \sum m i = 1 α i - 1 2 \sum m i = 1 \sum m j = 1 α i α j y i y j ϕ (x i) T ϕ (x j) s . t . \sum m i = 1 α i y i = 0 (6.9)

$\begin{equation} \begin{cases} max \sum^{m}_{i=1}\alpha_i - \frac{1}{2}\sum^m_{i=1}\sum^{m}_{j=1}\alpha_i\alpha_jy_iy_j\phi(x_i)^T\phi(x_j) \\ s.t. \sum^m_{i=1}\alpha_iy_i=0 \tag{6.9} \end{cases} \end{equation}$
由于高维空间的维度可能很大，直接计算

ϕ(xi)Tϕ(xj) $\phi(x_i)^T\phi(x_j)$ 通常是困难的。为了避开这个问题，可以设想这样一个函数

κ (x i, x j) = ϕ (x i) T ϕ (x j) (6.10)

$\kappa(x_i,x_j)=\phi(x_i)^T\phi(x_j) \tag{6.10}$
由此，式(6.9)可以进行简化，进行求解后可以得到

⎧ ⎩ ⎨ ⎪ ⎪ f (x) = ω T ϕ (x) + b = \sum m i = 1 α i y i ϕ (x i) T ϕ (x j) + b = \sum m i = 1 α i y i κ (x i, y i) + b (6.11)

$\begin{equation} \begin{cases} f(x)&=\omega^T\phi(x)+b \\ &=\sum^m_{i=1}\alpha_iy_i\phi(x_i)^T\phi(x_j) +b \\ &=\sum^m_{i=1}\alpha_iy_i\kappa(x_i,y_i) +b \tag{6.11} \end{cases} \end{equation}$
该式显示模型最优解可以通过训练样本的核函数展开，这个式子也被称为“支持向量展式”。只要一个对称函数所对应的核矩阵半正定，它就能作为核函数使用。核函数的选择对于支持向量机的性能非常重要，如果核函数选择不合适，很可能导致支持向量机性能不佳。

6.3 软间隔与正则化

在现实任务中，往往很难确定合适的核函数使得训练样本在特征空间中线性可分，退一步说，即使找到了核函数使得训练集线性可分，也很难断定这个结果是不是由于过拟合造成的。
缓解该问题的一个方法是允许支持向量机在一些样本上出错，即允许一部分样本不满足约束

y i (ω T x i + b) \geq 1 (6.12)

$y_i(\omega^Tx_i + b) \geq 1 \tag{6.12}$
在最大化间隔的同时，不满足约束的样本应当尽可能少，所以优化目标可以写为

m i n 1 2 | | ω 2 | | + C \sum i = 1 m L 0 / 1 (y i (ω T x i + b) - 1) (6.13)

$min \frac{1}{2}||\omega^2|| + C\sum^m_{i=1}L_{0/1}(y_i(\omega^Tx_i + b)-1) \tag{6.13}$
其中C>0是一个常数，

L0/1 $L_{0/1}$ 是“0/1损失函数”

L 0 / 1 (z) = {1, 0, i f z < 0 o t h e r w i s e (6.14)

$L_{0/1}(z)= \begin{equation} \begin{cases} 1, &if \quad z<0 \\ 0,&otherwise \tag{6.14} \end{cases} \end{equation}$
由于

L0/1(z) $L_{0/1}(z)$ 非凸，非连续，使得式（6.14）不容易直接求解，所以通常使用其他一些函数代替

L0/1(z) $L_{0/1}(z)$ ，称为“替代损失”。以下是三种替代损失函数

⎧ ⎩ ⎨ ⎪ ⎪ L h i n g e (z) L e x p (z) L l o g (z) = m a x (0, 1 - z) = e - z = l o g (1 + e - z)

$\begin{equation} \begin{cases} L_{hinge}(z) &= max(0,1-z) \\ L_{exp}(z) &= e^{-z} \\ L_{log}(z) &= log(1+e^{-z}) \end{cases} \end{equation}$
当我们采用hinge函数进行求解后可知，此时软间隔向量机的最终模型仅与支持向量有关，即仍保持了稀疏性。一般地，当我们用别的函数替换0/1损失函数时，可以得到一个通用的目标公式

m i n Ω (f) + C \sum i = 1 m L (f (x i), y i) (6.15)

$min \;\Omega(f) + C\sum^m_{i=1}L(f(x_i),y_i) \tag{6.15}$
其中

Ω(f) $\Omega(f)$ 称为“结构风险”，用来描述划分超平面的“间隔”大小。第二项称为“经验风险”,描述训练集的误差。

6.4 支持向量回归

给定训练样本 $D=\{(x_1,y_1),(x_2,y_2),...(x_m,y_m)\}$ 。对样本 $(x,y)$ ，支持向量回归(SVR)能够容忍 $f(x)$ 与y之间最多有 $\varepsilon$ 的偏差，即仅当 $f(x)$ 与y之间的差别绝对值大于 $\varepsilon$ 时才计算损失。这相当于以f(x)为中心，构建一个宽度为 $2\varepsilon$ 的隔离带。若样本落入此隔离带内，则被认为是预测正确的。

于是，SVR问题可化为

m i n 1 2 | | ω | | 2 + C \sum i = 1 m L ε (f (x i) - y i) (6.16)

$min \frac{1}{2}||\omega||^2 +C\sum^m_{i=1}L_\varepsilon(f(x_i)-y_i) \tag{6.16}$
其中C为正则化常数，

Lε $L_\varepsilon$ 为

ε $\varepsilon$ -不敏感损失函数

L ε (z) = {0, | z | - ε, i f | z | \leq ε o t h e r w i s e (6.17)

$L_\varepsilon (z)= \begin{equation} \begin{cases} 0,&if \; |z|\leq\varepsilon \\ |z|-\varepsilon ,&otherwise \tag{6.17} \end{cases} \end{equation}$
引入拉格朗日乘子法可解得SVR的支持向量是落在

ε $\varepsilon$ 隔离带之外的样本，因此它的解具有稀疏性。SVR可表示为

f (x) = \sum i = 1 m (α i^- α i) κ (x - x i) + b (6.18)

$f(x)=\sum^m_{i=1}(\hat{\alpha_i}-\alpha_i)\kappa(x-x_i)+b \tag{6.18}$
其中

κ(xi,xj)=ϕ(xi)Tϕ(xj) $\kappa(x_i,x_j)=\phi(x_i)^T\phi(x_j)$ 为核函数。

TaoismShi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《机器学习》阅读心得——六、支持向量机

六支持向量机1 间隔与支持向量六、支持向量机6.1 间隔与支持向量给定训练样本集D={(x1,y1),(x2,y2),...,(xm,ym)}D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}，分类学习的思路是在样本空间中找到一个划分超平面，将不同类别的样本分开。在样本空间中，划分超平面可通过以下方程来描述：ωTx+b=0\om
复制链接

扫一扫