SVM(支持向量机)

最新推荐文章于 2024-02-01 19:35:26 发布

prupcognition

最新推荐文章于 2024-02-01 19:35:26 发布

阅读量91

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/m0_37896765/article/details/91593396

版权

机器学习算法专栏收录该内容

17 篇文章 0 订阅

订阅专栏

svm分类：

硬间隔 svm(hard margin)
软间隔 svm(soft margin)
核间隔 svm(kernal margin)
特点：
SVM 有三宝：间隔，对偶，核技巧

SVM分类思想：找到一个超平面，使得该超平面能够正确分割样本，并满足最大化margin分类器,也叫最大化间隔分类器
在这里插入图片描述
数学描述：
$y=sign(w^Tx+b)，当w^Tx+b > 0时，y=1,w^Tx+b < 0时，y=-1$
所以原函数可以描述为如下不等式
$y(w^Tx+b)>0$

间距函数用distance(x)表示，我们知道点到直线距离公式：
在这里插入图片描述
这里点到超平面 $w^Tx+b$ 的距离为：

margin分类器定义：点到超平面的最小距离
margin分类器数学描述：
$\ distance(x_i)=min( \frac{1}{||w||}|w^Tx_i+b|)$

最大化margin分类器可以描述为：
$\min \ distance(x_i)=max \min( \frac{1}{||w||}|w^Tx_i+b|)$
$\frac{1}{||w||} \min(|w^Tx_i+b|)$
由于 $w^Tx_i+b|$ 是绝对值函数，这里可以用 $y_i(w^Tx_i+b)$ 代替
所以原问题可以描述为下列优化问题：
$\frac{1}{||w||} \ min \ y_i(w^Tx_i+b)$
$\quad y_i(w^Tx_i+b)>0$
令 $min \ y_i(w^Tx_i+b)=1$
$\frac{1}{||w||} 等价于：$ $m i n ∣ ∣ w ∣ ∣$
等价于： $\frac{1}{2} w^2$

这时原问题可以描述为
$\frac{1}{||w||}=min \frac{1}{2}\ w^Tw$
$\quad 1-y_i(w^Tx_i+b) \leq 0$
此时的问题是凸优化问题，可以采样拉格郎日对偶方式处理
问题的拉格朗日函数：
$L(w,b,\lambda)=\frac{1}{2}w^Tw+ \displaystyle \sum_{i=1}^n \lambda_i(1-y_i(w^Tx_i+b))$
拉格郎日对偶函数为
$g(\lambda)=\displaystyle \min_{w,b} \ (L(w,b,\lambda))$
对偶问题描述为：
$\begin{cases} max\ g(\lambda)=\displaystyle \max_{\lambda} \ \min_{w,b}(L(w,b,\lambda))\\ \lambda \geq 0 \end{cases}$

$max\ g(\lambda)=\displaystyle \max_{\lambda} \min_{w,b}(w^Tw+ \displaystyle \sum_{i=1}^n \lambda_i(1-y_i(w^Tx_i+b)))$

先求 $\min L(w,b,\lambda)$

对b求偏导
$\displaystyle \frac{\partial L(w,b,\lambda)}{b}= -\displaystyle \sum_{i=1}^n\lambda_i y_i=0$
展开拉格郎日函数有
$L(w,b,\lambda)=\frac{1}{2}w^Tw+ \displaystyle \sum_{i=1}^n \lambda_i(1-y_iw^Tx_i-y_ib)$
$=\frac{1}{2}w^Tw+ \displaystyle \sum_{i=1}^n \lambda_i- \displaystyle \sum_{i=1}^n \lambda_iy_iw^Tx_i-\displaystyle \sum_{i=1}^n \lambda_iy_ib$
$=\frac{1}{2}w^Tw+ \displaystyle \sum_{i=1}^n \lambda_i- \displaystyle \sum_{i=1}^n \lambda_iy_iw^Tx_i$
对w求偏导：
$\displaystyle \frac{\partial L(w,b,\lambda)}{w}= w-\displaystyle \sum_{i=1}^n\lambda_i y_ix_i=0$
$w=\displaystyle \sum_{i=1}^n\lambda_i y_ix_i$
带入原函数有：
$L(w,b,\lambda)=\frac{1}{2}w^Tw+ \displaystyle \sum_{i=1}^n \lambda_i- \displaystyle \sum_{i=1}^n \lambda_iy_iw^Tx_i$
$=\frac{1}{2}(\displaystyle \sum_{i=1}^n\lambda_i y_ix_i)^T(\displaystyle \sum_{j=1}^n\lambda_j y_jx_j)+ \displaystyle \sum_{i=1}^n \lambda_i- \displaystyle \sum_{i=1}^n \lambda_iy_i(\displaystyle \sum_{j=1}^n\lambda_j y_jx_j)^Tx_i$
$=-\frac{1}{2}\displaystyle \sum_{i=1}^n\displaystyle \sum_{j=1}^n\lambda_i \lambda_j y_iy_jx_i^Tx_j+\displaystyle \sum_{i=1}^n \lambda_i$

$max\ g(\lambda)=max(-\frac{1}{2}\displaystyle \sum_{i=1}^n\displaystyle \sum_{j=1}^n\lambda_i \lambda_j y_iy_jx_i^Tx_j+\displaystyle \sum_{i=1}^n \lambda_i)$

于是有下列对偶优化问题：
$\begin{cases} \min \ g(\lambda)=\frac{1}{2}\displaystyle \sum_{i=1}^n\displaystyle \sum_{j=1}^n\lambda_i \lambda_j y_iy_jx_i^Tx_j-\displaystyle \sum_{i=1}^n \lambda_i \\ \lambda \geq 0 \\ \displaystyle \sum_{i=1}^n\lambda_i y_i=0 \end{cases}$

由于原问题是凸问题，满足staler 条件，所以满足强对偶关系，也就是原问题最优解=对偶问题最优解，
从而也满足KKT条件:
$\begin{cases} 1-y_i(w^Tx_i+b) \leq 0 \ 原问题满足约束\\ \\ \lambda_i \geq 0 \ 对偶问题满足约束 \\ \\ \lambda_i(1-y_iw^Tx_i-y_ib)=0 \ 互补松弛 \\ \\ \displaystyle \frac{\partial L(w,b,\lambda)}{b}=0 ,\ \frac{\partial L(w,b,\lambda)}{w}=0,\frac{\partial L(w,b,\lambda)}{\lambda}=0 \end{cases}$

令 $1-y_iw^Tx_i-y_ib=0，有y_ib=1-y_iw^Tx_i$
两边同时乘以 $y_i有b=y_i-w^tx_i=y_i-\displaystyle \sum_{i=1}^n\lambda_i y_ix_i^Tx_i$
也就是最优的w,b满足
$w^*=\displaystyle \sum_{i=1}^n\lambda_i y_ix_i$
$b^*=y_i-w^tx_i=y_i-\displaystyle \sum_{i=1}^n\lambda_i y_ix_i^Tx_i$

prupcognition

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SVM(支持向量机)

svm分类：硬间隔 svm(hard margin)软间隔 svm(soft margin)核间隔 svm(kernal margin)特点：SVM 有三宝：间隔，对偶，核技巧硬间隔svm 函数形式y=sign(wTx+b)，当wTx+b&gt;0时，y=1,wTx+b&lt;0时，y=−1y=sign(w^Tx+b)，当w^Tx+b &gt; 0时，y=...
复制链接

扫一扫