机器学习-SVM支持向量机模型详解

最新推荐文章于 2024-05-29 21:17:05 发布

liqq234

最新推荐文章于 2024-05-29 21:17:05 发布

阅读量748

点赞数

分类专栏：读书笔记文章标签：机器学习

本文链接：https://blog.csdn.net/liqq234/article/details/120503179

版权

读书笔记专栏收录该内容

5 篇文章 2 订阅

订阅专栏

SVM

SVM设计初衷
有关概念
SVM分类
hard-margin SVM算法
soft-margin SVM算法
- 思想
应用场景
代码实现示例
优缺点

SVM设计初衷

解决二分类问题

有关概念

请添加图片描述
线性可分：上图中+与-分别代表两类数据，而这图中的直线可以分隔这两类数据，这种能够通过一条直线将两类数据分隔开的分类情况，我们称其线性可分。
分隔超平面：上述将数据集分隔开来的直线称为分隔超平面。
超平面：上述图像由于数据点都在二维平面上，所以分隔超平面就只是一条直线，而当数据点在n维上时，就需要n-1维的某某对象来对数据进行分隔，该对象被称为超平面，也就是分类的决策边界。
间隔：上图中我们发现有多条直线可以将数据分成两类，而我们希望的是遇到不在训练集中的点时，某条直线能够很好的正确分类，此时我们需要找到离分隔超平面最近的点，确保她们离分隔面的距离尽可能远。这里点到分隔面的距离被称为间隔（点相对于分隔面的间隔）；而数据集中所有点到分隔面的最小间隔的2倍，称为分类器或者数据集的间隔。
支持向量：上述离分隔超平面最近的那些点就被称为支持向量。
在这里插入图片描述
划分超平面用线性方程表示：
$w^Tx+b=0$
样本空间中任意点x到超平面(w,b)的距离可写为
$r=\frac{|w^Tx+b|}{||w||}$

SVM分类

hard-margin SVM 又称最大间隔分类器
soft-margin SVM
kernel SVM

hard-margin SVM算法

目的

解决max margin $(w, b)$ $\begin{cases} w^Tx_i+b, & \text{$y_i=+1$} \\ w^Tx_i+b, & \text{$y_i=-1$} \\ \end{cases}$
的问题。

公式

其中
$margin(w,b)=min\,distance(w,b,x_i)=min \frac{|w^Tx+b|}{||w||}, i=1,2...,N$
从而得到 $max\,margin(w,b) = \begin{cases} max\,min\frac{|w^Tx+b|}{||w||}=max\,\frac{1}{||w||}\,min|w^Tx_i+b|,w,b,x_i,i=1...N\\ s.t\,y_i(w^Tx+b)>0\Longrightarrow\exists r>0,s.t.min\,y_i(w^Tx_i+b)=r \end{cases}$
其中r可以直接归一化为1
从而得到
$max\,margin(w,b)=max\frac{1}{||w||}\,s.t\;y_i(w^Tx_i+b)\geq1\Longrightarrow\;min\frac{1}{2}w^Tw\;s.t.\;y_i(w^Tx_i+b)\geq1,for\forall\,i=1,...N$
其中 $y_i(w^Tx+b)\geq1$ 可写成 $1-y_i(w^Tx+b)\leq0$ 。
这便是一个凸优化问题，共有N个约束。

对偶问题引出

目的

利用拉格朗日乘数法求解上述受多个条件约束的多元函数极值的问题

公式推导关键步骤

$f(w,b,\lambda)=\frac{1}{2}w^Tw+\sum_{i=1}^n\lambda_i(1-y_i(w^Tx+b));\lambda\geq0,1-y_i(w^Tx+b)\leq0$
即求 $\begin{cases} \underset{w,b}{min}\;\underset{\lambda}{max}f(w,b.\lambda)\\ s.t.\;\lambda_i\geq0 \end{cases}$
上述两个公式为原问题，将其转换为对偶问题
$\begin{cases} \underset{\lambda}{max}\;\underset{w,b}{min}f(w,b,\lambda) \qquad (1)\\ s.t.\;\lambda_i\geq0 \end{cases}$
对偶问题与原问题同解。

求解对偶问题

先求 $\underset{w,b}{min}f(w,b,\lambda)$
对 $b$ 求偏导
$\begin{aligned} \frac{\partial\,f}{\partial\,b} = &\frac{\partial}{\partial\,b}[\sum_{i=1}^N\lambda_i-\sum_{i=1}^N\lambda_iy_i(w^Tx_i+b)]\\ =& \frac{\partial}{\partial\,b}[-\sum_{i=1}^N\lambda_iy_ib]\\ =& -\sum_{i=1}^N\lambda_iy_i=0\Longrightarrow\sum_{i=1}^N\lambda_iy_i\overset{\Delta}=0 \end{aligned}$
将其代入 $f(w,b,\lambda)$
$\begin{aligned} f(w,b,\lambda)=&\frac{1}{2}w^Tw+\sum_{i=1}^N\lambda_i-\sum_{i=1}^N\lambda_iy_i(w^Tx_i+b)\\ =&\frac{1}{2}w^Tw+\sum_{i=1}^N\lambda_i-\sum_{i=1}^N\lambda_iy_iw^Tx_i-\sum_{i=1}^N\lambda_iy_ib\\ =&\frac{1}{2}w^Tw+\sum_{i=1}^N\lambda_i-\sum_{i=1}^N\lambda_iy_iw^Tx_i \end{aligned}$
对 $w$ 求偏导(涉及矩阵求导法则)
$\begin{aligned} \frac{\partial\,f}{\partial\,w}=&\frac{1}{2}2w-\sum_{i=1}^N\lambda_iy_ix_i\overset{\Delta}=0\Longrightarrow\,w=\sum_{i=1}^N\lambda_iy_ix_i \end{aligned}$
将其代入 $f(w,b,\lambda)$
$\begin{aligned} f(w,b,\lambda)=&\frac{1}{2}(\sum_{i=1}^N\lambda_iy_ix_i)^T(\sum_{i=1}^N\lambda_jy_jx_j)+\sum_{i=1}^N\lambda_i-\sum_{i=1}^N\lambda_iy_i(\sum_{i=1}^N\lambda_jy_jx_j)^Tx_i\\ =&-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j+\sum_{i=1}^N\lambda_i \end{aligned}$
则 $(1)$ 式对偶问题演变成
$\begin{cases} \underset{\lambda}{max}-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j+\sum_{i=1}^N\lambda_i\\ s.t.\;\lambda_i\geq0\\ \sum_{i=1}^N\lambda_iy_i=0 \end{cases}$
原问题，对偶问题具有强对偶关系 $\Longleftrightarrow$ 满足KKT条件。

KKT条件

$\begin{cases} \frac{\partial\,f}{\partial\,w}=0;\frac{\partial\,f}{\partial\,b}=0;\frac{\partial\,f}{\partial\,\lambda}=0\\ \lambda_i(1-y_i(w^Tx+b)) = 0\\ \lambda_i\geq0 1-y_i(w^Tx_i+b)\leq0 \end{cases}$
可得
$w^*=\sum_{i=1}^N\lambda_iy_ix_i\;;\;b^*=y_k-\sum_{i=0}^N\lambda_iy_ix_i^Tx_k$
即决策函数为
$h(x)=sign((w^*)^Tx+b*)$

soft-margin SVM算法

思想

允许有一点点错误，即求 $min\frac{1}{2}w^Tw$ 可以演变为求 $min\frac{1}{2}w^Tw+loss$
$1-y_i(w^Tx_i+b)) \qquad (hinge-loss)$
即soft-margin解决的是
$\begin{cases} min\;\frac{1}{2}w^Tw+ C\sum_{i=1}^Nmax\lbrace0,\;1-y_i(w^Tx_i+b)\rbrace\\ s.t.\;y_i(w^Tx+b)\geq1 \end{cases}$
引入一个变量 $\xi_i=1-y_i(w^Tx_i+b),\xi_i\geq0$ 将上式变为
$\begin{cases} min\;\frac{1}{2}w^Tw+ C\sum_{i=1}^N\xi_i\\ s.t.\;y_i(w^Tx+b)\geq1-\xi_i,\xi_i\geq0 \end{cases}$
其求解与hard-margin SVM基本一致，可自行推导。