SVM与核函数

最新推荐文章于 2024-06-11 17:16:57 发布

1只小包子

最新推荐文章于 2024-06-11 17:16:57 发布

阅读量2.3w

点赞数 16

分类专栏：机器学习基石文章标签：核函数

本文链接：https://blog.csdn.net/a940902940902/article/details/85058514

版权

文章目录

核函数
 核函数

核技巧与SVM

SVM原本是用来解决二分类的分类模型
它和感知机不同的一点是它取到的分类器是在特征空间上的最大间隔的分类器
而为了解决非线性的分类问题 SVM使用核技巧所以在SVM中核函数的作用是解决了SVM无法处理非线性可分的问题

核函数本质

1.在实际数据上经常遇到线性不可分的情况而解决方法是将特征映射到更高维的空间去(为什么低维度线性不可分的情况映射到高维度就可以分了？).
2.凡是遇到线性不可分的情况一律映射到高维度空间会出现维度爆炸的情况
3.核函数虽然也是将特征进行从低维到高维的转化但是是在低维上进行计算而实际的效果表现在高维上解决了维度爆炸的问题

线性可分的SVM与硬间隔最大化

对于SVM而言在特征空间中分类超平面为
wx+b=0
对应的决策函数为
f=sign(wx+b)
SVM目标是得到分类超平面 wx+b=0 使得所有样本距离分类超平面距离尽量大分类样本距离分类超平面的距离可以表示分类预测的确信程度距离越大确信度越大

即距离分类超平面距离最近的样本距离分类超平面的距离尽量大（距离分类超平面最近的样本即支持向量）

当得到固定的分类超平面即 w，b 固定的时候对于任意的x |wx+b|可以相对的表示对于某一个x的分类置信程度当分类超平面固定的时候 |wx+b| 越大说明其距离分类超平面越远例如 w，b 固定若 |wx₁+b| 小于 |wx₂+b| 则说明对于该分类超平面 x₂ 的分类置信度更高

此时只讨论了样本到分类超平面的距离没有讨论是否被正确分类因此需要加上一个限制条件 y_i (wx_i+b) >0

根据之前SVM的目的即最大化间隔

那么对于所有的x
max(min _i=1,2…N |wx_i+b| )
s.t. y_i (wx_i+b) >0

对于线性可分的SVM
上述条件可以改写为
max_w,b (min_i=1,2…N y_i(wx_i+b) )
(上述式子可以想象成给定一组 w,b 该w,b 满足 y_i (wx_i+b) >0 对于所有的x 存在一个y_i(wx_i+b) 的最小值记录下该最小值对于所有的满足条件的w,b 选择最小值最大的一种 w,b )

但是上述式子有一个问题即成比例的更改w和b 分类超平面是不会改变的但是最小距离却会改变假设此时我们找到了一组 w,b 使得该w,b 在所有x上的最小值最大但是如果不对w和b的大小做限制这是不可能实现的因为一旦发现了这样的w和b 我们将w，b修改为 2w和2b 那么 min_i=1,2…N y_i(wx_i+b) 也就变成原来的两倍虽然找到的超平面还是原来的超平面但是这样 max_w,b (min_i=1,2…N y_i(wx_i+b) )是不可能能求出最优的w和b的

通过上述直观的感觉可以发现找不出最优的w和b的根源是不限制w和b的大小明明已经找到最优超平面就是无法输出最优的w和b 那么解决方法自然就是现在w和b的大小很自然的限制一个向量的大小不改变该向量的方法就是对向量进行归一化
即w和b分别处以|w| 进行归一化
此时目标函数变成
max_w,b (min_i=1,2…N y_i(wx_i+b)/||w|| )

这就是几何间隔，之所以叫做几何间隔是因为其自身的几何意义
假定我们已经拥有这样一个平面
w^Tx+b=0 求 distance（x,w,b）
在这里插入图片描述
假设x^’和x^’’ j均为平面上的点那么
w^Tx^’=-b 同理 w^Tx^‘’=-b
所以w^T(x^’-x^’’)=0 说明w垂直于平面上任意直线即 w为平面的法向量
而点到平面的距离为 (x-x^’) 投影到垂直于平面的方向即w的方向

(下述转化过程很容易忘记)
推导至此线性可分的SVM 优化目标函数即最大化间隔也就是使得几何间隔最大
将几何间隔记做 γ_i=y_i（wx_i+b）/||w||
最小几何间隔 γ=min γ_i

max _w,b γ
s.t. y_i（wx_i+b）/||w||>=γ
（接下来的一步转化很关键）

根据几何间隔和函数间隔的关系
即函数间隔/||w|| 等于几何

最低0.47元/天解锁文章

1只小包子

关注

16
点赞
踩
110

收藏

觉得还不错? 一键收藏
2
评论
SVM与核函数

文章目录核函数本质核技巧核函数核函数核函数本质1.在实际数据上经常遇到线性不可分的情况而解决方法是将特征映射到更高维的空间去(为什么低维度线性不可分的情况映射到高维度就可以分了？).2.凡是遇到线性不可分的情况一律映射到高维度空间会出现维度爆炸的情况3.核函数虽然也是将特征进行从低维到高维的转化但是是在低维上进行计算而实际的效果表现在高维上解决了维度爆炸的问题核技巧给定...
复制链接

扫一扫

专栏目录