SVM理解

最新推荐文章于 2021-10-22 08:00:00 发布

Dive_

最新推荐文章于 2021-10-22 08:00:00 发布

阅读量137

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_38119106/article/details/107804060

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

0 简介

用一个超平面把正负样本分开，最大化(离超平面最近的正负样本距离超平面的)间隔
注意几何间隔和函数间隔的区别点到超平面的距离公式
仅供个人整理使用，所以写的很简略。。。

1 线性可分

$\left\{ \begin{array}{lr} min\cfrac12w^Tw \\\\ y_i(w^Tx_i+b)\ge1\\ \end{array} \right.$
构造L
$\left\{ \begin{array}{lr} L(w,b,\alpha)=\cfrac12w^Tw-\sum\limits_{i=1}^l\alpha_i[y_i(w^Tx_i+b)-1] \\\\ \alpha_i\ge0\\ \end{array} \right.$
$L_{old}\ge L$ $所以minL_{old}\ge maxL$ 由于要求原目标的最小值
所以问题：对L先求最大值，再求最小值
由于线性可分，满足slater条件，可转化为对偶问题求解
$\min_{w,b}[\max_\alpha L(w,b,\alpha)]\Leftrightarrow\max_{\alpha}[\min_{w,b}L(w,b,\alpha)]$ 转化为对偶问题之后：先求L最小值，再求最大值

1.1 w,b作参数求极小值

求w b的偏导令其为0
$\left\{ \begin{array}{lr} \cfrac{\partial L}{\partial b}=-\sum\limits_{i=1}^l\alpha_iy_i=0 \\\\ \cfrac{\partial L}{\partial w_j}=w_j-\sum\limits_{i=1}^l\alpha_iy_ix_{ij}=0\\ \end{array}\right.$
$\left\{ \begin{array}{lr} \sum\limits_{i=1}^l\alpha_iy_i=0 \\\\ w=\sum\limits_{i=1}^l\alpha_iy_ix_i\\ \end{array}\right.$

1.2 α作参数求极大值

先把上述w和b的表达式代入L 消除w和b 得到(需要展开后式不想写过程了直接给出结果)：
$L=-\cfrac12(\sum\limits_{i=1}^l\alpha_iy_ix_i^T)(\sum\limits_{j=1}^l\alpha_jy_jx_j)+\sum_{i=1}^l\alpha_i$
$\max_\alpha(L)=\left\{ \begin{array}{lr} \min\limits_\alpha\cfrac12(\sum\limits_{i=1}^l\alpha_iy_ix_i^T)(\sum\limits_{j=1}^l\alpha_jy_jx_j)-\sum\limits_{i=1}^l\alpha_i\\\\ \alpha_i\ge0\\\\ \sum\limits_{i=1}^l\alpha_iy_i=0 \end{array}\right.$ 只剩下α参数求出α即可求出 $w$

2 线性不可分

加入松弛变量 $\xi$ 和惩罚因子 $C$ 最优化问题为：
$\left\{ \begin{array}{lr} min\cfrac12w^Tw+C\sum\limits_{i=1}^l \xi_i \\\\ y_i(w^Tx_i+b)\ge1-\xi_i\\\\ \xi_i\ge0,\quad i=1,2,...,l \end{array} \right.$
当 $\xi_i=0$ ，样本 $i$ 遵守约束；
当 $\xi_i>0$ ，样本 $i$ 违反约束。
令 $w=0,b=0,\xi_i=2$ 约束 $0 > - 1$ 恒成立满足slater条件
所以可以转化为对偶问题构造L：
$\left\{ \begin{array}{lr} L(w,b,\alpha,\xi,\beta)=\cfrac12w^Tw+C\sum\limits_{i=1}^l \xi_i-\sum\limits_{i=1}^l\alpha_i[y_i(w^Tx_i+b)-1+\xi_i]-\sum\limits_{i=1}^l\beta_i\xi_i \\\\ \alpha_i\ge0\\\\ \xi_i\ge0\\\\ \beta_i\ge0 \end{array} \right.$
同理，分为以下两步

2.1 $w,b,\xi$ 作参数求极小值

求 $w,b,\xi$ 的偏导令其为0
$\left\{ \begin{array}{lr} \cfrac{\partial L}{\partial b}=-\sum\limits_{i=1}^l\alpha_iy_i=0 \\\\ \cfrac{\partial L}{\partial w_j}=w_j-\sum\limits_{i=1}^l\alpha_iy_ix_{ij}=0\\\\ \cfrac{\partial L}{\partial \xi_i}=C-\alpha_i-\beta_i=0 \end{array}\right.$
$\left\{ \begin{array}{lr} \sum\limits_{i=1}^l\alpha_iy_i=0 \\\\ w=\sum\limits_{i=1}^l\alpha_iy_ix_i\\\\ \alpha_i+\beta_i=C \end{array}\right.$

2.2 $\alpha,\beta$ 作参求极大值

将上述表达式代入L，消除 $w,b,\xi$ 得：
$L=-\cfrac12(\sum\limits_{i=1}^l\alpha_iy_ix_i^T)(\sum\limits_{j=1}^l\alpha_jy_jx_j)+\sum_{i=1}^l\alpha_i$ 求L的最大值等价于下列：
$\max_{\alpha,\beta}(L)=\left\{ \begin{array}{lr} \min\limits_\alpha\cfrac12(\sum\limits_{i=1}^l\alpha_iy_ix_i^T)(\sum\limits_{j=1}^l\alpha_jy_jx_j)-\sum\limits_{i=1}^l\alpha_i\\\\ 0\le\alpha_i\le C\quad(因为\alpha_i+\beta_i=C，\beta_i\ge0)\\\\ \sum\limits_{i=1}^l\alpha_iy_i=0 \end{array}\right.$
观察可以发现，与线性可分情况相比，其他相同，就是多了 $\alpha_i\le C$ 的约束

2.3 简化表述

定义矩阵 $Q$
$Q_{ij}=y_iy_jx_i^Tx_j$
定义矩阵 $X=[y_1x_1,y_2x_2,...,y_lx_l]$ ，则 $Q=X^TX$
$x:n×l；X:n×l；Q:l×l；e:l×1；\alpha：l×1$
原对偶问题可以表示为：
$\left\{ \begin{array}{lr} \min\limits_\alpha\cfrac12\alpha^TQ\alpha-e^T\alpha\\\\ 0\le\alpha_i\le C\\\\ y^T\alpha=0 \end{array}\right.$

2.4 KKT条件

最优点处必须满足KKT条件，也就是不等式必须为0
$\left\{ \begin{array}{lr} \alpha_i[y_i(w^Tx_i+b)-1+\xi_i]=0,\quad i=1,2,...,l \\\\ \beta_i\xi_i=0,\quad i=1,2,...,l \\ \end{array} \right.$ 而之前的约束是：
$\left\{ \begin{array}{lr} \alpha_i\ge0 \\\\ \xi_i\ge0\\\\ \alpha_i+\beta_i=C \\\\ y_i(w^Tx_i+b)\ge1-\xi_i\\ \end{array} \right.$
根据 $\alpha$ 的取值，分为以下情况:

① $\alpha_i=0\Rightarrow\beta_i=C\Rightarrow\xi_i=0\Rightarrow y_i(w^Tx_i+b)\ge1$
② $\alpha_i>0\Rightarrow y_i(w^Tx_i+b)=1-\xi_i$
- ②-① $\alpha_i<C\Rightarrow\beta_i>0\Rightarrow\xi_i=0\Rightarrow y_i(w^Tx_i+b)=1$
- ②-② $\alpha_i=C\Rightarrow\beta_i=0\Rightarrow\xi_i\ge0即可\Rightarrow y_i(w^Tx_i+b)\le1$

综上，可分为以下三种情况：
$\left\{ \begin{array}{lr} \alpha_i=0\Rightarrow y_i(w^Tx_i+b)\ge1\\\\ 0\le \alpha_i\le C\Rightarrow y_i(w^Tx_i+b)=1\\\\ \alpha_i=C \Rightarrow y_i(w^Tx_i+b)\le1\\ \end{array} \right.$