一.支持向量机概述
支持向量机(SVM)是一类按监督学习方式对数据进行二元分类的分类器,其决策边界是对学习样本求解的最大边距超平面,可以将问题化为一个求解凸二次规划的问题。
具体来说就是在线性可分时,在原空间寻找两类样本的最优分类超平面。在线性不可分时,加入松弛变量并通过使用非线性映射将低维度输入空间的样本映射到高维度空间使其变为线性可分,这样就可以在该特征空间中寻找最优分类超平面。
二.超平面


由于数据点都在二维平面上,所以此时分隔超平面就只是一条直线。但是,如果所给的数据集是三维的,那么此时用来分隔数据的就是一个平面。显而易见,更高维的情况可以依此类推。当数据集是N维时,需要一个N-1维的某某对象来对数据进行分隔。N-1维的该对象被称为超平面(hyperplane),也就是分类的决策边界。 分布在超平面一侧的所有数据都属于某个类别,而分布在另一侧的所有数据则属于另一个类别。
三.支持向量机类型
3.1硬间隔
- 指在训练数据集中找到一个超平面,使得该超平面能够将不同类别的样本完全分开,并且使得所有样本点到该超平面的距离都大于等于一个确定的值,这个确定的值就是硬间隔。
- 硬间隔的目标是找到一个最大化间隔的超平面,以确保对新样本的分类具有很好的泛化能力。
- 完全可分
3.2软间隔
- 软间隔:指在支持向量机中允许一些训练样本点出现在超平面的错误一侧,即允许一些样本点出现在间隔边界内部,而不是严格地要求所有样本点都要被正确分类。
- 软间隔的目的:为了提高模型的鲁棒性,使得支持向量机能够更好地处理一些噪声或异常点的情况。
- 在软间隔的情况下,支持向量机的目标是找到一个最大化间隔的超平面,并且最小化分类错误和间隔边界内部的样本点。
- 通过引入惩罚项来平衡间隔的最大化和分类错误的最小化,从而实现对软间隔的优化。
更详细的在后面优化会提到
四.最大间隔

要想分类器更优,应使这个间隔越大越好,就是找出最大间隔

找到目标:就是求width的极大值,即寻找参数w和b , 使得下述公式最大

也就是找下面公式的极小值:

上述这些都是在一些前提条件成立的情况下才可以,即
怎么求呢?用拉格朗日乘子法去求
拉格朗日乘子法的要求是,在某些前提条件下,求极值,刚好满足

最低0.47元/天 解锁文章
2131

被折叠的 条评论
为什么被折叠?



