SVM-线性可分支持向量机

最新推荐文章于 2024-07-17 20:43:45 发布

weixin_34387468

最新推荐文章于 2024-07-17 20:43:45 发布

阅读量102

点赞数

文章标签：数据结构与算法

原文链接：https://yq.aliyun.com/articles/50130

版权

如果您想体验更好的阅读：请戳这里littlefish.top

函数间隔和几何间隔

给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为

w\*⋅x+b\*=0w\*⋅x+b\*=0

以及相应的分类决策函数

f(x)=sign(w\*⋅x+b\*)f(x)=sign(w\*⋅x+b\*)

称为线性可分支持向量机。

对于给定训练集合T和超平面(w,b)，定义超平面(w,b)关于样本点(xi,yi)的函数间隔为

γ^i = y i (w \cdot x i + b)

定义超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点(xi,yi)的函数间隔之最小值，

γ^= m i n i = 1, . . ., N γ^i

对于给定的训练数据集和超平面(w,b)，定义超平面(w,b)关于样本(xi,yi)的几何间隔为

γ^i = y i (w | | w | | \cdot x i + b | | w | |)

定义超平面(w,b)关于训练数据集T的几何间隔为超平面(w,b)关于T中所有样本点(xi,yi)的几何间隔之最小值

γ = m i n i = 1, . . ., N γ i

从而得到几何间隔和函数间隔的关系:

γ = γ ^ i | | w | |

间隔最大化

对数据集合找到几何间隔最大的超平面意味着以充分大的确信度来对训练数据进行分类。

最大化超平面可表示为：

m a x w, b γ s . t . y i (w | | w | | \cdot x i + b | | w | |) \geq γ, i = 1, . . ., N

即最大化超平面(w,b)关于训练结合的间隔γ，约束条件表示的超平面(w,b)关于每个训练样本点的几何间隔至少为γ。

而函数间隔对于上述公式并没有影响，假设按比例改变为λw和λb，那么函数间隔改变为λγ^

改变为相应的函数距离，如下

m a x w, b γ ^ | | w | | s . t . y i (w \cdot x i + b) \geq γ^, i = 1, . . ., N

由于分母和分子同时拥有λ，因此成比例改变并不会对函数间隔产生影响，从而对目标函数的优化也没有影响。

令γ^=1，代入上式，最大化1||w||等价于最小化12||w||，从而得到线性可分支持向量机学习的最优化问题

m i n w, b 1 2 | | w | | 2 s . t . y i (w \cdot x i + b) - 1 \geq 0, i = 1, 2, . . ., N

这是一个凸二次规划问题。

支持向量

在线性可分的情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量（support vector），即

y i (w \cdot x i + b) = 1

对于y=+1的正例来说，支持向量在超平面

H 1 : w \cdot x + b = 1

对于y=-1的负例来说，支持向量在超平面

H 2 : w \cdot x + b = - 1

如图中， H1和H2平行，之间形成一条长带，其宽度为2||w||。在决定分离超平面时只有支持向量起作用，而其他实例点并不起作用，如果移动支持向量改变所求的解，但是如果在间隔边界（H1和H2）以外移动其他实例点，解都不会发生改变。

对偶算法

为了求解线性可分支持向量机的最优化问题，应用拉格朗日对偶性，通过求解对偶问题得到最优解。

定义拉格朗日函数：

L (w, b, α) = 1 2 | | w | | 2 - \sum_i = 0 n α_i y_i (w \cdot x_i + b) + \sum_i = 1 N α_i

其中，α=(α_1,α_2,...,α_N)T为拉格朗日乘子向量。

根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题需要先求L(w,b,α)对(w,b)求极小，再对α求极大：

max_α min_w, b L (w, b, α)

min_w,bL(w,b,α)

分别对w,b,α求偏导数，并令其等于0，将结果带入原公式中即得

min_w, b L (w, b, α) = - 1 2 \sum_i - = 1 N \sum_j - = 1 N α_i α_j y_i y_j (x_i \cdot x_j) + \sum_i = 1 N α_i

求min_w,bL(w,b,α)对α的极大

max_α - 1 2 \sum_i - = 1 N \sum_j - = 1 N α_i α_j y_i y_j (x_i \cdot x_j) + \sum_i = 1 N α_i s . t . \sum_i = 1 N α_i y_i = 0, α_i > 0, i = 1, 2, . . ., N

等价于：

min_α 1 2 \sum_i - = 1 N \sum_j - = 1 N α_i α_j y_i y_j (x_i \cdot x_j) - \sum_i = 1 N α_i s . t . \sum_i = 1 N α_i y_i = 0, α_i > 0, i = 1, 2, . . ., N

线性可分支持向量机学习算法

(1)构造并求解约束最优化问题

min_α 1 2 \sum_i - = 1 N \sum_j - = 1 N α_i α_j y_i y_j (x_i \cdot x_j) - \sum_i = 1 N α_i s . t . \sum_i = 1 N α_i y_i = 0, α_i > 0, i = 1, 2, . . ., N

(2)计算

w\*=∑i=1Nα\*iyixiw\*=∑i=1Nαi\*yixi

并选择α\*的一个正分量α\*j，计算

b\*=y_i−∑i=1Nα\*iyi(xi⋅xj)b\*=y_i−∑i=1Nαi\*yi(xi⋅xj)

(3)求得分离超平面

w\*⋅x+b\*=0w\*⋅x+b\*=0

分类决策函数

f(x)=sign(w\*⋅x+b∗\)f(x)=sign(w\*⋅x+b∗\)

本文由 cococo点点创作，采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。欢迎转载，请注明出处：
转载自：cococo点点 http://www.cnblogs.com/coder2012

weixin_34387468

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SVM-线性可分支持向量机

如果您想体验更好的阅读：请戳这里littlefish.top函数间隔和几何间隔给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为w\*⋅x+b\*=0w\*⋅x+b\*=0以及相应的分类决策函数f(x)=sign(w\*⋅x+b\*)f(x)=sign(w\*⋅x+b\*)称为线性可分支...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。