个人学习笔记（八）线性支持向量机与软间隔最大化

最新推荐文章于 2020-11-09 17:29:21 发布

万carp

最新推荐文章于 2020-11-09 17:29:21 发布

阅读量392

点赞数

分类专栏：个人学习笔记文章标签：机器学习人工智能算法工程师

本文链接：https://blog.csdn.net/u013899126/article/details/89743408

版权

个人学习笔记专栏收录该内容

18 篇文章 5 订阅

订阅专栏

在上一篇文章中介绍了线性可分支持向量机，但如果训练数据不是严格线性可分的，线性可分支持向量机便不适用了，需要修改硬间隔最大化，使其成为软间隔最大化。

1、线性支持向量机

给定一个特征空间上的训练数据集
$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ 其中 $x_i\in R^n,y_i\in\{+1,-1\}$ 。通常情况时训练数据中有一些特异点(outlier)，将其除去后剩下大部分的样本点组成的集合是线性可分的。
针对这个问题，可以对每个样本 $x_i,y_i)$ 引进一个松弛变量 $\xi_i\ge0$ ，修改硬间隔最大化的约束条件，使函数间隔加上松弛变量大于等于1，即
$y_i(w\cdot x_i+b)\ge1-\xi_i$ 同时对每个松弛变量 $\xi_i$ 支付一个代价，即目标函数变为
$\frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i$ 这有两层含义，一是使间隔尽量大，二是使误分类点的个数尽可能小， $C$ 是调和二者的系数。
线性支持向量机变成如下凸二次规划(convex quadratic programming)问题
$\min_{w,b,\xi} \frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i$ $y_i(w\cdot x_i+b)\ge1-\xi_i, i=1,2,\cdots,N$ $\xi_i\ge0, i=1,2,\cdots,N$ 可以证明， $w$ 的解是唯一的，但 $b$ 的解可能不唯一，而是存在于一个区间。

2、学习的对偶算法

列出原始最优化问题的拉格朗日函数
$L(w,b,\xi,\alpha,\mu)=\frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i-\sum_{i=1}^N\alpha_i[y_i(w\cdot x_i+b)-1+\xi_i]-\sum_{i=1}^N\mu_i\xi_i$ 原始问题的对偶问题为
$\max_{\alpha,\mu}\min_{w,b,\xi}L(w,b,\xi,\alpha,\mu)$ 首先求内部极小化问题，分别对 $w,b,\xi$ 求偏导
$\bigtriangledown_wL(w,b,\xi,\alpha,\mu)=w-\sum_{i=1}^N\alpha_iy_ix_i=0$ $\bigtriangledown_bL(w,b,\xi,\alpha,\mu)=-\sum_{i=1}^N\alpha_iy_i=0$ $\bigtriangledown_{\xi_i} L(w,b,\xi,\alpha,\mu)=C-\alpha_i-\mu_i=0$ 得
$w=\sum_{i=1}^N\alpha_iy_ix_i$ $\sum_{i=1}^N\alpha_iy_i=0$ $C=\alpha_i+\mu_i$ 代入对偶问题内部极小化式子中，可得
$\min_{w,b,\xi}L(w,b,\xi,\alpha,\mu)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i$ 再对 $\min_{w,b,\xi}L(w,b,\xi,\alpha,\mu)$ 求 $\alpha,\mu$ 的极大
$\max_{\alpha,\mu} -\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i$ $\sum_{i=1}^N\alpha_iy_i=0$ $C-\alpha_i-\mu_i=0$ $\alpha_i\ge0$ $\mu_i\ge0, i=1,2,\cdots,N$ 由于目标函数中没有 $\mu$ ，可以在约束条件中消去 $\mu_i$ ，将约束条件后面的三式写成
$0\le\alpha_i\le C$ 求解上面的最优化问题，得到解 $\alpha^*=(\alpha_1^*,\alpha_2^*,\cdots,\alpha_N^*)$ ，接着考虑如何由 $\alpha^*$ 计算分离超平面参数 $w^*,b^*$ 。
由于原始问题是凸二次规划问题，其解满足KKT条件，即
$\bigtriangledown_wL(w^*,b^*,\xi^*,\alpha^*,\mu^*)=w^*-\sum_{i=1}^N\alpha_i^*y_ix_i=0$ $\bigtriangledown_bL(w^*,b^*,\xi^*,\alpha^*,\mu^*)=-\sum_{i=1}^N\alpha_i^*y_i=0$ $\bigtriangledown_{\xi_i} L(w^*,b^*,\xi^*,\alpha^*,\mu^*)=C-\alpha_i^*-\mu_i^*=0$ $\alpha_i^*[y_i(w^*\cdot x_i+b)-1+\xi_i^*]=0$ $\mu_i^*\xi_i^*=0$ $y_i(w^*\cdot x_i+b^*)-1+\xi_i\ge0$ $\xi^*_i\ge0$ $\alpha_i^*\ge0$ $\mu_i^*\ge0, i=1,2,\cdots,N$ 由上面的第一个KKT条件可以推出 $w^*$ 的计算公式
$w^*=\sum_{i=1}^N\alpha_i^*y_ix_i$ 接着求取 $b^*$ 的公式。
考虑若有 $0<\alpha_j<C$ ，根据第三个KKT条件可推出 $\mu_j^*>0$ ；根据第四个KKT条件可推出 $y_j(w^*\cdot x_j+b^*)-1+\xi_j^*=0$ 。
由于 $\mu^*_j>0$ ，根据第五个KKT条件可进一步推出 $\xi_j^*=0$ ，因此有
$y_j(w^*\cdot x_j+b^*)-1=0$ 带入 $w^*$ 的表达式，可得
$b^*=y_j-\sum_{i=1}^Ny_i\alpha_i^*(x_i\cdot x_j)$

3、支持向量

与线性可分支持向量机相同，将对应于 $\alpha_i^*>0$ 的样本点 $x_i,y_i)$ 的实例 $x_i$ 称为支持向量。支持向量 $x_i$ 到间隔边界的距离是 $\frac{\xi_i}{||w||}$ ，即 $\xi_i$ 越大，离间隔边界越远。
若 $0<\alpha_i^*<C$ ，则有 $\xi^*=0$ ，即支持向量 $x_i$ 恰好落在间隔边界上；若 $\alpha_i^*=C$ 且 $0<\xi_i^*<1$ ，则 $x_i$ 分类正确，但在间隔边界与分离超平面之间；若 $\alpha_i^*=C$ 且 $\xi_i^*=1$ ，则 $x_i$ 在分离超平面上；若 $\alpha_i^*=C$ 且 $\xi_i^*>1$ ，则 $x_i$ 在分离超平面的误分一侧。

4、合页损失函数

线性支持向量机还有另外一种解释，就是最小化以下目标函数
$\min_{w,b} \sum_{i=1}^N[1-y_i(w\cdot x_i+b)]_++\lambda||w||^2$ 其中目标函数的第一项是经验风险，函数 $L(y(w\cdot x+b))=[1-y(w\cdot x+b)]_+$ 称为合页损失函数(hinge loss function)；目标函数的第二项是 $w$ 的 $L_2$ 范数，是正则化项。
为什么说带正则化项的合页损失函数是线性支持向量机的另一种解释？可以令
$[1-y_i(w\cdot x_i+b)]_+=\xi_i$ 则 $\xi_i$ 满足以下两个约束
$y_i(w\cdot x_i+b)\ge1-\xi_i, i=1,2,\cdots,N$ $\xi_i\ge0, i=1,2,\cdots,N$ 这正是线性支持向量机原始问题的两个约束条件，再看看目标函数，若取 $\lambda=\frac{1}{2C}$ ，则带正则化项的合页损失函数可写成
$\min_{w,b} \frac{1}{C}(\frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i)$ 可以发现，括号里的部分正是线性支持向量机原始问题的目标函数。
与感知机相比，线性支持向量机对学习有更高的要求。感知机的损失函数是 $[-y_i(w\cdot x_i+b)]_+$ ，当样本点 $x_i,y_i)$ 被正确分类时，损失是0；相比之下线性支持向量机的合页损失函数 $[1-y_i(w\cdot x_i+b)]_+$ 不仅要分类正确，而且确信度足够高时损失才是0.

万carp

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
个人学习笔记（八）线性支持向量机与软间隔最大化

       在上一篇文章中介绍了线性可分支持向量机，但如果训练数据不是严格线性可分的，线性可分支持向量机便不适用了，需要修改硬间隔最大化，使其成为软间隔最大化。1、线性支持向量机       给定一个特征空间上的训练数据集T={(x1,y1),(x2,y2),⋯&ThinSpace;,(xN,yN)}T...
复制链接

扫一扫