SVM原理详解

最新推荐文章于 2024-02-07 13:22:10 发布

huxueyan_2010

最新推荐文章于 2024-02-07 13:22:10 发布

阅读量234

点赞数

分类专栏：机器学习算法文章标签：机器学习

本文链接：https://blog.csdn.net/qq_31595229/article/details/90382672

版权

机器学习算法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.数学基础

(1)定义一个平面 $\vec w\bullet\vec x+b=0$

@定义一个平面
由向量垂直得： $\vec w\bullet (\vec x-\vec x_0)=0$
设 $b=-\vec w\bullet\vec x_0$ ，则
$\quad\vec w\bullet\vec x+b=0$

(2)求解平行平面之间的距离D

Alt
所求距离: $D=||t\vec w||=|t|\bullet||\vec w||$
以 $\vec x_1、\vec x_2$ 的交点为坐标原点， $\vec x_1、\vec x_2$ 确定的平面建立坐标系，知
$\quad\vec w\bullet\vec x_2+b_2=0$
$\quad\vec w\bullet\vec x_1+b_1=0$
又 $\vec x_2=\vec x_1+t\vec w$
综上，可得 $t=\frac{b_1-b_2} {||w||^2}$

故 $D=\frac{|b_1-b_2|}{||\vec w||}$

2.SVM(样本线性可分）

(1) 确定样本分割平面

在这里插入图片描述
步骤：

对于正、负样本，可以确定虚线所示的平行分割平面，方程分别为：
$\quad\vec w\bullet\vec x+b_1=0$ 及 $\vec w\bullet\vec x+b_2=0$
调整 $\vec w$ 的大小，使得 $b_2-b_1=2$
设 $b=\frac{b_1+b_2}{2}$ ，则 $b_1=b-1, b_2=b+1$
代入方程，得
$\quad\vec w\bullet\vec x+b=1$
$\quad\vec w\bullet\vec x+b=-1$

（2）确定最优化目标及约束条件

最优化目标（间距最大）
i. 根据平面间距离计算公式： $D=\frac{|b_1-b_2|}{||\vec w||}=\frac{2}{||\vec w||}$
ii. 最大化 $D$ ，等价于最小化 $\frac{||\vec w||^2}{2}$
约束条件（保证正确分类）
i. 对于正负样本，有
$\quad\vec w\bullet\vec x_i+b\ge1\qquad$ $if\; y_i=1$
$\quad\vec w\bullet\vec x_i+b\le-1\quad\,$ $if\;y_i=-1$
ii. 综上，可得
$\quad y_i(\vec w\bullet\vec x_i+b)\ge1$
$\quad$ 即
$\quad y_i(w^Tx_i+b)\ge1$

（3）原问题转化为对偶问题进行求解

构造拉格朗日乘子
$L(w,b,\lambda)=\frac{||w||^2}{2}-\sum\limits_{i=1}^n\lambda_i[y_i(w^Tx_i+b)-1]$
将原问题转化为对偶问题
$\min\limits_{w,b}\,\max\limits_{\lambda}L(w,b,\lambda)\Longleftrightarrow\,\max\limits_{\lambda}\min\limits_{w,b}L(w,b,\lambda)$
根据KKT条件(求解极小值点)
$\nabla_{w,b}\, L(w,b,\lambda)=0$
$\Leftrightarrow\frac{\partial L}{\partial w}=\frac{\partial L}{\partial b}=0$

分别求导，得: $w=\sum\limits_{i=1}^{n}\lambda_iy_ix_i\quad,\sum\limits_{i=1}^{n}\lambda_iy_i=0$
代入拉格朗日乘子式，并化简（求解极大值）
$L(w,b,\lambda)=\frac{w^Tw}{2}-w^T\sum\limits_{i=1}^{n}\lambda_iy_ix_i-b\sum\limits_{i=1}^{n}\lambda_iy_i+\sum\limits_{i=1}^{n}\lambda_i$

$\qquad\,\qquad\qquad=\sum\limits_{i=1}^{n}\lambda_i-\frac{1}{2}(\sum\limits_{i=1}^{n}\lambda_iy_ix_i)^T\sum\limits_{i=1}^{n}\lambda_iy_ix_i$

$\qquad\,\qquad\qquad=\sum\limits_{i=1}^{n}\lambda_i-\frac{1}{2}\sum\limits_{i,j=1}^{n}\lambda_i\lambda_jy_iy_jx_i^Tx_j$

$\qquad\,$ 此时，需要求解 $L(w,b,\lambda)$ 关于 $\lambda$ 的极大值
$\qquad\,$ 即，求解 $-L(w,b,\lambda)$ 关于 $\lambda$ 的极小值

对偶问题重新定义（求解 $\lambda_i^*$ ）
最小化目标： $-L(w,b,\lambda)=\frac{1}{2}\sum\limits_{i,j=1}^{n}\lambda_i\lambda_jy_iy_jx_i^Tx_j-\sum\limits_{i=1}^{n}\lambda_i$
约束条件： $\lambda_i\ge0,\; i=1……n\quad$ （KKT条件）
$\qquad\qquad\sum\limits_{i=1}^{n}\lambda_iy_i=0\quad$ （求导所得）
求解 $w^*,b^*,y$
$w^*=\sum\limits_{i=1}^{n}\lambda_i^*y_ix_i$

$\quad\;\;$ 根据正、负样本分割平面方程知
$min (w^Tx_i+b)=1\qquad$ $\quad if\;y_i=1$
$max(w^Tx_i+b)=-1\qquad$ $if\; y_i=-1$
$\qquad$ 故， $b^*=-\frac{1}{2}[\max\limits_{y_i=-1}((w^*)^Tx_i)+\min\limits_{y_i=1}((w^*)^Tx_i)]$

$\;\,\,\quad y=sign((w^*)^Tx+b^*)$
$\;\,\qquad =sign(\sum\limits_{i=1}^{n}\lambda_i^*y_ix_i^Tx+b^*)$

3.SVM(样本线性不可分）

(1) 引入松弛系数 $\xi\,(\xi>0)$

在这里插入图片描述

（2）确定最优化目标及约束条件

最优化目标（间距最大）
最小化 $\frac{||w||^2}{2}+C\sum\limits_{i=1}^n\xi_i \quad(C>0)$
约束条件（保证正确分类）
i. 基本条件： $\xi_i\ge0$
ii. 对于正负样本，有
$\quad\vec w\bullet\vec x_i+b\ge1-\xi_i\qquad$ $if\; y_i=1$
$\quad\vec w\bullet\vec x_i+b\le-1+\xi_i\quad\,$ $if\;y_i=-1$
iii. 综上，可得
$\quad y_i(\vec w\bullet\vec x_i+b)\ge1-\xi_i$
$\quad$ 即
$\quad y_i(w^Tx_i+b)\ge1-\xi_i$

（3）原问题转化为对偶问题进行求解

构造拉格朗日乘子
$L(w,b,\xi,\lambda,\mu)=\frac{||w||^2}{2}+C\sum\limits_{i=1}^n\xi_i -\sum\limits_{i=1}^n\lambda_i[y_i(w^Tx_i+b)-1+\xi_i]-\sum\limits_{i=1}^n\mu_i\xi_i$
将原问题转化为对偶问题
$\min\limits_{w,b,\xi}\,\max\limits_{\lambda,\mu}L(w,b,\xi,\lambda,\mu)\Longleftrightarrow\,\max\limits_{\lambda,\mu}\min\limits_{w,b,\xi}L(w,b,\xi,\lambda,\mu)$
根据KKT条件(求解极小值点)
$\nabla_{w,b,\xi}\, L(w,b,\xi,\lambda,\mu)=0$
$\Leftrightarrow\frac{\partial L}{\partial w}=\frac{\partial L}{\partial b}=\frac{\partial L}{\partial \xi}=0$
分别求导，得: $w=\sum\limits_{i=1}^{n}\lambda_iy_ix_i\quad,\sum\limits_{i=1}^{n}\lambda_iy_i=0\quad,C-\lambda_i-\mu_i=0$
代入拉格朗日乘子式，并化简（求解极大值）
$L(w,b,\xi,\lambda,\mu)\,=\frac{w^Tw}{2}+C\sum\limits_{i=1}^n\xi_i-w^T\sum\limits_{i=1}^{n}\lambda_iy_ix_i-b\sum\limits_{i=1}^{n}\lambda_iy_i+\sum\limits_{i=1}^{n}\lambda_i(1-\xi_i)-\sum\limits_{i=1}^n\mu_i\xi_i$

$\qquad\qquad\,\qquad\qquad=\sum\limits_{i=1}^n\xi_i(C-\mu_i)+\sum\limits_{i=1}^{n}\lambda_i(1-\xi_i)-\frac{1}{2}(\sum\limits_{i=1}^{n}\lambda_iy_ix_i)^T\sum\limits_{i=1}^{n}\lambda_iy_ix_i$

$\qquad\qquad\,\qquad\qquad=\sum\limits_{i=1}^{n}\lambda_i-\frac{1}{2}\sum\limits_{i,j=1}^{n}\lambda_i\lambda_jy_iy_jx_i^Tx_j$
$\qquad\,$ 此时，需要求解 $L(w,b,\xi,\lambda,\mu)$ 关于 $\lambda,\mu$ 的极大值
$\qquad\,$ 即，求解 $-L(w,b,\xi,\lambda,\mu)$ 关于 $\lambda,\mu$ 的极小值

对偶问题重新定义（求解 $\lambda_i^*$ ）
最小化目标： $-L(w,b,\xi,\lambda,\mu)=\frac{1}{2}\sum\limits_{i,j=1}^{n}\lambda_i\lambda_jy_iy_jx_i^Tx_j-\sum\limits_{i=1}^{n}\lambda_i$
约束条件： $\lambda_i\ge0,\; i=1……n\qquad\;\,\quad$ KKT条件
$\qquad\qquad\mu_i\ge0,\; i=1……n\quad\;\;\qquad$ KKT条件（1）
$\qquad\qquad C-\lambda_i-\mu_i=0\qquad\qquad\quad\;\;\,$ 求导结果（2）
$\qquad\qquad\lambda_i\le C,\; i=1……n\qquad\quad\;$ 由（1）、（2）推出
$\qquad\qquad\sum\limits_{i=1}^{n}\lambda_iy_i=0\qquad\qquad\qquad\quad\;\;\,$ 求导结果
求解 $w^*,b^*,y$
$w^*=\sum\limits_{i=1}^{n}\lambda_i^*y_ix_i$

$\quad\;\;$ 根据正、负样本分割平面方程知
$\qquad min (w^Tx_i+b)=1-\xi_i\qquad$ $\quad if\;y_i=1$
$\qquad max(w^Tx_i+b)=-1+\xi_i\qquad$ $if\; y_i=-1$
$\quad\;\;$ 故，
$\qquad\; b^*=-\frac{1}{2}[\max\limits_{y_i=-1}((w^*)^Tx_i)+\min\limits_{y_i=1}((w^*)^Tx_i)]$

$\;\,\,\quad y=sign((w^*)^Tx+b^*)$
$\;\,\qquad =sign(\sum\limits_{i=1}^{n}\lambda_i^*y_ix_i^Tx+b^*)$

4.核函数

定义：
将特征向量 $x$ 提升维度，转变为 $\phi(x)$ 后，执行的内积运算
$K(x_i,x_j)=\phi(x_i)^T\phi(x_j)$
分类及对比：

名称	公式	优点	缺点
线性函数	$K(x_i,x_j)=x_i^Tx_j$	形式简单、运算效率高、解释性强	无法处理线性不可分问题
多项式核函数	$K(x_i,x_j)=(\gamma x_i^Tx_j+c)^n$	拟合能力强	参数太多、 $n$ 较大时运算困难
高斯核函数	$K(x_i,x_j)=exp(-\frac{(x_i-x_j)^2}{2\sigma^2})$	参数容易选择	解释性弱、计算速度慢、易过拟合

huxueyan_2010

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SVM原理详解

1.数学基础(1)定义一个平面 w⃗∙x⃗+b=0\vec w\bullet\vec x+b=0w∙x+b=0由向量垂直得：w⃗∙(x⃗−x⃗0)=0\vec w\bullet (\vec x-\vec x_0)=0w∙(x−x0)=0设 b=−w⃗∙x⃗0b=-\vec w\bullet\vec x_0b=−w∙x0，则w⃗∙x⃗+b=0\vec w\bullet\vec x+b=...
复制链接

扫一扫