支持向量机

最新推荐文章于 2024-06-17 00:00:00 发布

大力水手王老吉

最新推荐文章于 2024-06-17 00:00:00 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习文章标签： SVM 支持向量机 soft-margin hard_margin 软间隔和硬间隔

本文链接：https://blog.csdn.net/qq_35090026/article/details/94394408

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

支持向量机

核心理论

核心理论

在统计学习理论基础上发展而来的支持向量机(support vector mechines,SVM)算法，是一种专门研究有限样本预测的方法。作为一种二分类模型，其基本模型是作用在特征空间上的间隔最大的线性分类器，间隔最大使其有别于感知机模型。支持向量机的学习策略就是间隔最大化，这就可以将其形式化为一个求解凸二次规划的问题。
SVM三大法宝：间隔，对偶，核技巧

假设给定训练样本集合 $S=\left \{ \left ( x_{1},y_{1}\right )，\left (x_{2} ，ｙ_{2} \right )... \right \}，y_i \subset \left \{ -1, 1\right \}$ 其中，X为输入空间或输入特征空间，y是样本的类标记。为了把不同的类别分开，我们需要找到一个超平面。问题是应该找哪个？
在这里插入图片描述
直观上看我们应该找两类数据最中间的超平面，也就是图中红色的那条。这样才能将训练集的局限性或噪声影响降到最小，也就是最鲁棒的。

1.hard-margin SVM

上图红色的超平面可以用线性方程： $w^Tx+b=0$ 来表示，其中 $w=(w_1,w_2,...,w_d)^T$ 是法向量，它决定了超平面的方向； $b$ 是位移，代表了超平面和原点之间的距离。那么超平面就可以被 $w$ 和 $b$ 确定下来，就记作 $(w, b)$ 吧。所以样本中任一点 $x$ 到超平面 $(w, b)$ 的距离可以写成：
　　 $distance=\frac{|w^Tx+b|}{||w||}$
而我们的最大间隔分类器的目的就是最大化最小的 $d i s t a n c e$ ，就是这样：
　　 $max\space margin(w,b) s.t.\space\space y_i(w^Tx_i+b)>0,i=1,2,...,N$
　　
也就是这样：
　　 $max\space min\space \frac{y_i(w^Tx+b)}{||w||} s.t.\space\space y_i(w^Tx_i+b)>0,i=1,2,...,N$
　　
令$ y_i(w^Tx_i+b)=1,$
有 $:max\space \frac{1}{||w||} s.t.\space\space y_i(w^Tx_i+b)≥1,i=1,2,...,N$
　　
转换下形式，变成一个存粹的优化问题(原问题)：
$min\space \frac{1}{2}w^Tw s.t.\space\space y_i(w^Tx_i+b)≥1,i=1,2,...,N$

既然是个优化问题，那么我们试着用拉格朗日乘子法解一下，
拉格朗日函数：
$L(w,b,\lambda)=\frac{1}{2}w^Tw+\sum_{i=1}^{N}\lambda_i(1-y_(w^Tx_i+b))$
$s.t.\space\space \lambda_i≥0,1-y_(w^Tx_i+b)≤0$

写成无约束的原问题 $:\underset {w,b}{min}\space \underset\lambda{max} L(w,b,\lambda) \space \space\space\space\space\space s.t.\space\space\lambda_i≥0$

对偶

上述原问题的对偶问题就是：
$\underset\lambda{max} \space \underset {w,b}{min} L(w,b,\lambda) \space \space\space\space\space\space s.t.\space\space\lambda_i≥0$
借用一句话，对偶问题和原问题就是鸡头凤尾的关系，凤尾再差也比鸡头强。。。

对 $w, b$ 求偏导：
令 $\frac{\partial L}{\partial b}=0，$ 有 $\sum_{i=1}^N\lambda_iy_i=0$
令 $\frac{\partial L}{\partial w}=0，$ 有 $w^*=\sum_{i=1}^N\lambda_iy_ix_i$

那么上面的对偶问题就能转化成这样：
$\underset \lambda{max}\sum_{i=1}^N\lambda_i-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j$
$s.t.\space\space\lambda_i≥0,\space\sum_{i=1}^N\lambda_iy_i=0$

从对偶问题解出的 $\lambda_i$ 是拉格朗日乘子，它恰恰对应着寻来你样本 $x_i,y_i)，$ 而***原问题***中有不等式约束，因此上述过程满足KKT条件，即要求：
$\lambda_i≥0;$
$\lambda_i(1-y_i(w^Tx_i+b)=0$
$1-y_i(w^Tx_i+b)≤0$

又因为刚刚我们通过对拉格朗日函数求偏导已经求出来了 $w^*=\sum_{i=1}^N\lambda_iy_ix_i，$ 假设存在一个点 $x_k,y_k)，$ 使得 $1-y_k(w^Tx_k+b)=0$

再看 $y_k(w^Tx_k+b)=1$ 这个式子，因为 $y_k\sub{-1，+1}$ ，因此两边同乘以 $y_k，$ 有 $y_k^2(w^Tx_k+b)=y_k,$ 而 $y_k^2=1$ ，

所以 $b^*=y_k-w^Tx_k=y_k-\sum_{i=1}^N\lambda_iy_ix_i^Tx_k$

所以硬间隔的超平面就得出了： $f(x=sign(w^*x+b^*))$

2.soft-margin SVM

前面的介绍中，我们一直假定训练样本在样本空间中式线性可分的。然而在实际情况中往往很难确定合适的核函数使得训练样本在特征空间中线性可分。
缓解这个问题的一个方法是允许支持向量机在一定样本上出错。也就是软间隔的概念。
软间隔允许某些让本不满足约束 $y_i(w^Tx_i+b)≥1，$ 为了方便表示，这里将 $y_i(w^Tx_i+b)$ 记作 $z 。$ 当然，在最大间隔的同时，不满足此约束的样本应该尽量少。此外我们还希望引入的这个损失函数数学性质要好，那么可以常用的损失函数可以写成：

$\space\space\space\space\space\space\space\space$ hinge损失： $L (z) = m a x (0, 1 - z)$
$\space\space\space\space\space\space\space\space$ 指数损失： $L (z) = e x p (- z)$
$\space\space\space\space\space\space\space\space$ 对率损失： $L (z) = l o g (1 + e x p (- z))$

如果采用hinge损失，那***原问题***就可以变成这种形式：

$min\space \frac{1}{2}w^Tw+C\sum_{i=1}^Nmax\left\{ 0,1- y_i(w^Tx_i+b)\right\}$
$s.t.\space\space y_i(w^Tx_i+b)≥1-\xi_i,i=1,2,...,N$

引入： $\xi_i=1- y_i(w^Tx_i+b),\xi_i≥0$

软间隔的最终形式：

$min\space \frac{1}{2}w^Tw+C\sum_{i=1}^N\xi_i$
$s.t.\space\space y_i(w^Tx_i+b)≥1-\xi_i,i=1,2,...,N,\xi_i≥0$

软间隔的求解过程和硬间隔类似，这里就不再求解了。

大力水手王老吉

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
支持向量机

支持向量机概念核心理论在统计学习理论基础上发展而来的支持向量机(support vector mechines,SVM)算法，是一种专门研究有限样本预测的方法。作为一种二分类模型，其基本模型是作用在特征空间上的间隔最大的线性分类器，间隔最大使其有别于感知机模型。支持向量机的学习策略就是间隔最大化，这就可以将其形式化为一个求解凸二次规划的问题。最大间隔分类超平面假设给定观测样本集合S={(...
复制链接

扫一扫

专栏目录