SVM-非线性支持向量机及SMO算法

最新推荐文章于 2024-09-15 22:08:22 发布

witnessai1

最新推荐文章于 2024-09-15 22:08:22 发布

阅读量938

点赞数

分类专栏： ——机器学习—— 文章标签：机器学习 SVM 非线性支持向量机核函数 SMO

——机器学习—— 专栏收录该内容

37 篇文章 0 订阅

订阅专栏

SVM-非线性支持向量机及SMO算法

线性不可分情况

线性可分问题的支持向量机学习方法，对线性不可分训练数据是不适用的，为了满足函数间隔大于1的约束条件，可以对每个样本 (xi,yi) 引进一个松弛变量 ξi≥0 ，使函数间隔加上松弛变量大于等于1,，

y i (w \cdot x i + b) \geq 1 - ξ i

目标函数变为

1 2 | | w | | 2 + C \sum j = 1 N ξ i

其中，C>0称为惩罚参数，值越大对误分类的惩罚越大，值越小对误分类的惩罚越小。

因此，最小化目标函数也就是使 12||w||2 尽量小（间隔尽量大），同时使误分类点的个数尽量小。

线性不可分的线性支持向量机的学习问题变成如下凸二次规划问题：

min w, b, ξ 1 2 | | w | | 2 + C \sum i = 1 N ξ i s . t . y i (w \cdot x i + b) \geq 1 - ξ i, i = 1, 2, \dots, N, ξ i \geq 0, i = 1, 2, \dots, N

线性支持向量学习算法

选择惩罚参数C>0，构造并求解凸二次规划问题

min α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i s . t . \sum i = 1 N α i y i = 0 0 \leq α i \leq C, i = 1, 2, \dots, N

求得最优解 α∗=(α∗1,α∗2,…,α∗N)T

计算 w∗=∑Ni=1α∗iyixi

选择 α∗ 的一个分量 α∗j 适合条件 0<α∗j<C ，计算

b * = y i - \sum i = 1 N y i α * i (x i \cdot x j)

求得分离超平面

w * \cdot x + b * = 0

分类决策函数：

f (x) = s i g n (w * \cdot x + b *)

核函数

用线性分类方法求解非线性分类问题分为两步：首先使用一个变换将原空间的数据映射到新空间；然后在新空间里用线性分类学习方法从训练数据中学习分类模型。

核技巧应用在支持向量机的基本思想：通过一个非线性变换将输入空间（欧式空间 Rn 或离散集合）对应于一个特征空间（希尔伯特空间H），使得在输入空间 Rn 中的超曲面模型对应于特征空间H中的超平面模型（支持向量机）。

非线性支持向量分类机

非线性支持向量机

从非线性分类训练集，通过核函数与间隔最大化或凸二次规划，学习得到的分类决策函数：

f (x) = s i g n (\sum i = 1 N α * i y i K (x, x i) + b *)

称为非线性支持向量， K(x,z) 是正定核函数。

学习算法

选择适当的核函数 K(x,z) 和适当的参数C，构造并求解最优化问题

min α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j K (x i, x j) - \sum i = 1 N α i s . t . \sum i = 1 N α i y i = 0, 0 < α i < C, i = 1, 2, \dots, N

求解最优解 α∗=(α∗1,α∗2,…,α∗N)

选择 α∗ 的第一个正分量 0<α∗j<C ，计算

b * = y i - \sum i = 1 N α * i y i K (x i \cdot x j)

构造决策函数

f (x) = s i g n (\sum i = 1 N α * i y i K (x \cdot x i) + b *)

序列最小优化算法

SMO算法是一种启发式算法。如果所有变量都满足KKT条件，那么这个最优化问题就解决了（KKT问题是该最优化问题的充要条件），否则，选择两个变量，固定其他变量，针对这两个变量构造二次规划问题。该方法会使原始二次规划问题的目标函数变小，不断分解自问题并对子问题求解进而达到求解原问题的目的。

由于

\sum i = 1 N α i y i = 0

所以

α i = - 1 y i \sum i = 2 N α i y i

两个变量的二次规划求解

假设选择两个变量 α1，α2 ，

min α 1 α 2 = 1 2 K 11 α 21 + 1 2 K 22 α 22 + y 1 y 2 K 12 α 1 α 2 (α 1 + α 2) + y 1 α 1 \sum i = 3 N y i α i K i 1 + y 2 α 2 \sum i = 3 N y i α i K 12 s . t . α 1 y 1 + α 2 y 2 = - \sum i = 3 N y i α i = ξ 0 \leq α i \leq C, i = 1, 2

由于只有两个变量 (αi,αj) ，因此根据两变量的符号情况约束条件可用二位空间中的图表示（参考 α1y1+α2y2=ξ(常数) ），

L和H是 α 取值的最小和最大值，如果 yi!=yj ，则

L = max (0, α 2 - α 1), H = min (C, C + α 2 - α 1)

如果 yi=yj ，则

L = max (0, α 2 + α 1 + C), H = min (C, α 2 + α 1)

令

g (x) = \sum i = 1 N α i y i K (x i, x) + b

得到误差值：

E i = g (x i) - y i = (\sum i = 1 N α i y i K (x i, x) + b) - y i $, i = 1, 2

此最优问题的解是：

α n e w 2 = α o l d 2 + y 2 ( E 1 - E 2 ) η

其中，

η = K 11 + K 22 - 2 K 12 = | | ϕ (x 1) - ϕ (x 2) | | 2

ϕ(x) 为输入空间到特征空间的映射，经过剪辑后是

f (n) = ⎧ ⎩ ⎨ ⎪ ⎪ H, α n e w 2 > H α n e w 2, L \leq α n e w 2 \leq H L, α n e w 2 < L

则 αnew1 为

α n e w 1 = α o l d 1 + y 1 y 2 (α o l d 2 - α n e w 2)

变量的选择方法

SMO算法在每个子问题中选择两个变量优化，其中至少一个变量是违反KKT条件的。

1.第1个变量的选择

SMO算法在外层循环中选取违反KKT条件最严重的样本点，并将其对应的变量作为第1个变量，KKT条件如下

α i = 0 < = > y i g (x i) \geq 1 0 < α i < C < = > y i g (x i) = 1 α i = C < = > y i g (x i) \leq 1

其中， g(xi)=∑Nj=1αjyjK(xi,xj)+b 。

该检验在 ϵ 范围内进行的，在校验过程中，外层循环首先遍历所有满足条件 0<αi<C 的样本点，即在间隔边界上的支持向量点，检验它们是否满足KKT条件。如果这些样本点都满足KKT条件，那么遍历整个训练集，检验它们是否满足KKT条件。

2.第2个变量的选择

SMO算法在内层循环，假设在外层循环中已经找到第一个变量 α1 ，现在要在内层循环中找到第2个变量 α2 ，第2个变量选择的标准是希望能使 α2 有足够的变化。根据上一节可知， αnew2 是依赖 |E1−E2| 的，为了加快计算速度，最简单的做法是选择 |E1−E2| 最大的（如果 E1 为负值，则选择最大的 Ei 作为 E2 ，否则选择最小的 Ei 为 E2 ，需要保存所有的 Ei ）。

3.计算阈值b和差值 Ei

在每次完成两个变量优化后，都要重新计算阈值b。

由KKT条件得

\sum i = 1 N α i y i K i 1 + b = y i

从而

b n e w 1 = y 1 - \sum i = 3 N α i y i K i 1 - α n e w 1 y 1 K 11 - α n e w 2 y 2 K 21

由于 Ei=g(xi)−yi=(∑Ni=1αiyiK(xi,x)+b)−yi , \quad i = 1,2$，则

E 1 = g (x 1) - y 1 = \sum i = 3 N α i y i K i 1 + α o l d 1 y 1 K 11 + α o l d 2 y 2 K 21 + b o l d - y 1

将上式中的 yi−∑Ni=3αiyiKi1 代入 bnew1 的公式中，得到

b n e w 1 = - E 1 - y 1 K 11 (α n e w 1 - α o l d 1) - y 2 K 21 (α n e w 2 - α o l d 2) + b o l d

对于b的取值：

b n e w = {b n e w 1 = b n e w 2, 0 < α n e w i < C, i = 1, 2 b n e w 1 + b n e w 2 2, α n e w i = = 0 o r C ， 满 足 K K T 条 件

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

witnessai1 CSDN认证博客专家 CSDN认证企业博客

码龄10年

79: 原创

12万+: 周排名

160万+: 总排名

118万+: 访问

: 等级

8092: 积分

433: 粉丝

947: 获赞

136: 评论

4306: 收藏

私信

关注

热门文章

分类专栏

最新评论

大数据竞赛平台——kaggle入门
yye17: 很感谢博主！很详细呀
Pytorch中的backward
misakaharuhi: 刚才跟着学了，收获很多，但是最后代码的6和9行对[1,0]和[0,1]的注释是不是错了，应该是dz1/dx1,dz1/dx2和dz2/dx1,dz2/dx2吧，这样刚好和对应的雅可比矩阵的一行是一样的，根据我自己的编码也是这样的结果
Markdown 语法手册（完整整理版）
Programming1234: 我之前用vscode的MarkdownAll In One插件生成的目录就这效果，特别是目录头部，为啥要把目录自身的第一行非得重复一下，感觉这里很怪异。
Markdown 语法手册（完整整理版）
Programming1234: 这目录本来就只带缩进了，完全没必要再加个列表符号。段落完全可以通过>块的形式实现主题分明的效果，不一定非得加数字标记内容小结。
Markdown 语法手册（完整整理版）
Programming1234: 你这目录应该不是用CSDN自带的语法生成的，我是不太喜欢这种前面硬要加个列表符号的目录外观，感觉很突兀，我觉得CSDN本身的更简洁，更清爽，一家之言。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。