SVM

最新推荐文章于 2023-03-09 00:30:00 发布

_BOTAK_

最新推荐文章于 2023-03-09 00:30:00 发布

阅读量240

点赞数

分类专栏：模式识别与机器学习学习笔记统计学习方法文章标签：机器学习模式识别 SVM

本文链接：https://blog.csdn.net/BOTAK_/article/details/103169611

版权

学习笔记同时被 3 个专栏收录

64 篇文章 0 订阅

订阅专栏

模式识别与机器学习

14 篇文章 1 订阅

订阅专栏

统计学习方法

11 篇文章 0 订阅

订阅专栏

SVM

Suppot Vector Machine
支持向量机有三宝，间隔，对偶，核技巧
简而言之，SVM是一个二分类问题模型，总而言之，SVM就是找到一个超平面 $w^Tx+b$ ，使得正类 $w^Tx+b>0$ ，相反，负类 $w^Tx+b<0$ 。本质是一个最大间隔分类器。
${\lbrace(x_i,y_i)\rbrace}, x_i \in R ,y_i\in {\lbrace-1,1\rbrace}$

我们首先定义距离distance，假设一个样本点 $x_i,y_i)$ 距离超平面 $w^Tx+b$ 的距离定义为 $\frac{1}{||w||}|w^Tx_i+b|$ ,
然后间隔就是 $\min_{w,b,x_i}\lbrace distance(w,b,x_i) \rbrace$

硬间隔SVM

总的而言：
$w^Tx+b>0 , y_i=+1$
$w^Tx+b<0 , y_i=-1$
上面的两个式子可以转换成一个
$y_i(w^Tx_i+b)>0,\forall i=1...N$
$margin(w,b)=\min_{w,b,x_i}\frac{1}{||w||}|w^Tx_i+b|$
最大间隔:
$\max_{w,b}\min_{x_i}\frac{1}{||w||}|w^Tx_i+b|,st \forall i=1...N,y_i(w^Tx_i+b)>0$
$\max_{w,b}\min_{x_i}\frac{1}{||w||}|w^Tx_i+b| =\max_{w,b}\min_{x_i} \frac{1}{||w||} y_i(x^Tx_i+b)=\max_{w,b}\frac{1}{||w||}\min_{x_i}y_i(w^Tx_i+b)$
$\exists \gamma>0,st\min_{x_i,y_i}y_i(w^Tx_i+b)=\gamma$
$\gamma = 1$ 则：
$\max_{w,b}\frac{1}{||w||}\min_{x_i}y_i(w^Tx_i+b) = \max_{w,b}\frac{1}{||w||}$
这样就转化成为了一个凸优化问题
$\forall i=1..N,st ~ y_i(w^Tx_i+b)>=1~,~\min_{w,b}\frac{1}{2}w^Tw$
拉格朗日乘子法
$\mathcal{L}(w,b,\lambda) = \frac{1}{2}w^Tw+\sum_{i=1}^{N}\lambda_i[1-y_i(w^Tx_i+b)]$
转化为无参约束问题的解释：
$1-y_i(w^Tx_i+b)>0 ~,~\max_{\lambda}\mathcal{L}(w,b,\lambda)=\frac{1}{2} w^T w + \infty = \infty$
$1-y_i(w^Tx_i+b)<=0 ~,~\max_{\lambda}\mathcal{L}(w,b,\lambda)=\frac{1}{2} w^T w + 0 = \frac{1}{2} w^T w$
满足kkt条件，将凸优化问题转换成为一个无参数约束问题：
$\lambda_i>=0~,~ \min_{w,b}\max_{\lambda}\mathcal{L}(w,b,\lambda)$
转化为对偶问题
$\lambda_i>=0~,~ \max_{\lambda}\min_{w,b}\mathcal{L}(w,b,\lambda)$
接下来就是计算 $\min_{w,b}\mathcal{L}(w,b,\lambda)$ 问题
$\frac{\partial \mathcal{L} }{\partial b} = -\sum_{i=1}^N \lambda_iy_i = 0$
将上述计算结果带入 $\mathcal{L}(w,b,\lambda)$
$\mathcal{L}(w,b,\lambda) = \frac{1}{2}w^Tw+\sum_{i=1}^N\lambda_i-\sum_{i=1}^N\lambda_iy_iw^Tx_i$
$\frac{\partial \mathcal{L} }{\partial w} = 1/2 * 2w-\sum_{i=1}^N\lambda_iy_ix_i = 0 => w = \sum_{i=1}^N\lambda_iy_ix_i$
$\mathcal{L}(w,b,\lambda) = -\frac{1}{2}\sum_{i=1}^N \sum_{j=1} ^N \lambda_i \lambda_j y_iy_j{x_i}^T x_j + \sum_{i=1}^N \lambda_i$
原问题转化成为
$\lambda_i>=0~,~\max_{\lambda}-\frac{1}{2}\sum_{i=1}^N \sum_{j=1} ^N \lambda_i \lambda_j y_iy_j{x_i}^T x_j + \sum_{i=1}^N \lambda_i$
$\lambda_i>=0~,~\min_{\lambda} \frac{1}{2}\sum_{i=1}^N \sum_{j=1} ^N \lambda_i \lambda_j y_iy_j{x_i}^T x_j + \sum_{i=1}^N \lambda_i$
强对偶关系需要满足KKT条件：
KKT
$\frac{\partial \mathcal{L} }{\partial w}=0, \frac{\partial \mathcal{L} }{\partial b}=0, \frac{\partial \mathcal{L} }{\partial \lambda}=0,$
$\lambda_i(1-y_i(w^Tx_i+b))=0$
$\lambda_i>=0$
$1-y_i(w^Tx_i+b)<=0$
根据kkt条件求得：
$\sum_{i=0}^N\lambda_iy_ix_i$
$y_k-\sum_{i=0}^N\lambda_iy_i{x_i}^Tx_k$
判别面的方程为：
$w*^Tx+b*$

软间隔SVM

硬间隔SVM默认数据是可分的，但是，数据有时候往往是不可分的，或者是存在噪声点，这时候就引入软间隔SVM，加上一个loss(距离)
$\min_{w,b} \frac{1}{2}w^Tw + loss$
$if ~~ y_i(w^Tx_i+b)>=1 ~,~ loss=0$
$if ~~ y_i(w^Tx_i+b)<1 ~,~ loss=1-y_i(w^Tx_i+b)$
conclude
$max\lbrace 0,1-y_i(w^Tx_i+b)\rbrace$
优化函数就变成（C是参数，需要自己调整）
$\min_{w,b} \frac{1}{2}w^Tw +C \sum_{i=1}^Nmax\lbrace 0,1-y_i(w^Tx_i+b)\rbrace$
令 $\xi_i = 1-y_i(w^Tx_i+b)$
得
$y_i(w^Tx_i+b)>=1-\xi_i~,~\min_{w,b} \frac{1}{2}w^Tw +C \sum_{i=1}^N\xi_i$