SVM整理

最新推荐文章于 2020-12-23 13:54:21 发布

weixin_42585595

最新推荐文章于 2020-12-23 13:54:21 发布

阅读量136

点赞数

分类专栏：找个实习

本文链接：https://blog.csdn.net/weixin_42585595/article/details/83119539

版权

找个实习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

支持向量机Support Vector Machine

数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
$其中x_i\in R^n,y_i=\pm 1$
SVM通过找最大间隔或解等价的凸优化问题学得分离超平面 $\omega ^*x+b^*$

决策函数 $f(x)=sign(\omega ^*x+b^*)$
函数间隔在成比例改变时,函数间隔会发生变化,但决策平面实际不变,所以引入几何间隔
几何间隔：可分数据集情况下样本点到超平面的最小距离
$\gamma =\min_{i=1,...,N}\frac{2y_i(\omega x_i+b)}{\parallel \omega \parallel}=\frac{2}{\parallel \omega \parallel}$
几何间隔自带L2正则化,所以SVM本身有防止过拟合的能力.
SVM要求解约束优化问题使得在样本被正确分类的情况下，间隔最大
$\max_{\omega ,b}\gamma \\s.t. \ y_i(\omega x_i+b)\geq \gamma$
等价为 $\min_{w,b} \ \frac{1}{2}\parallel \omega \parallel ^2 \\$ $\ y_i(\omega x_i+b)\geq 1$
支持向量：样本点中与支持向量距离最近的实例，既满足上式中等号成立的样本点
问题的目标函数是二次函数，约束条件为线性约束，所以是凸优化问题。

考虑对偶问题原因：
1.更容易求解和计算，决策函数只与数据中支持向量有关，节约计算量
2.形式上便于引入核函数
要把把有约束的优化问题转化为无约束的优化问题求解,用拉格朗日乘数法，有
$\mathcal{L}(\omega,b, \vec{\alpha})=\frac{1}{2}\parallel \omega \parallel^2-\sum_{i=1}^{N}\alpha _iy_i(\omega x_i+b)+\sum_{i=1}^{N}\alpha_i$
其中 $\vec{\alpha}=[\alpha _1,\alpha _2,...,\alpha_n]为Lagrange因子$
要解决
$\max_{\vec{\alpha}}\min_{\omega,b}\mathcal{L}(\omega,b, \vec{\alpha})$
经过推导
决策函数变为
$f(x)=sign(\sum_{i=1}^{N}\alpha_i^*y_i(x\cdot x_i)+b^*)$
此时决策函数与内积有关

第二种解决方法：
引入损失函数hinge loss折页损失
$\mathscr{J}=\sum_{i=1}^{N}max(0,[1-y_i(\omega x_i+b)])+\lambda\parallel\omega\parallel^2$
可用梯度下降法直接进行求解

不可分数据集时

数据集不可分时，加入松弛条件 $\xi_i\geq0,\ y_i(\omega x_i+b)\geq1-\xi_i$

目标函数变为 $\frac{1}{2}\parallel\omega\parallel^2+C\sum_{i=1}^{N}\xi_i$

核函数kernel function

数据集不可分时，将数据映射到高维空间中，就可能可分
映射 $\phi (x)$ 将 $x$ 映射到高维空间中，核函数有如下性质 $K(x,z)=\phi(x)\cdot\phi(z)$
即可通过核函数直接求得高维空间中的内积。
任意半正定的 $R^n*R^n->R$ 的映射，只要对特征向量空间满足对称半正定，都可以作为核函数(Mercer’s Theorem)。至于具体的升维方式不重要

此时目标函数为 $W(x)=\frac{1}{2}\sum_{i=1}^N\sum_{i=1}^N\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^N\alpha_i$
决策函数为 $f(x)=sign(\sum_{i=1}^N\alpha_i^*y_iK(x_i,x)+b^*)$

使用高斯核函数时(最常用)，由于高斯核函数考察的是相对距离的大小，所以需要做归一化操作。核函数的选取一般采取结果导向。特征纬度很高的情况下，采取线性核函数即可。

多分类问题

处理多分类问题时，一般有两种策略
1.one-against-all
一类为正集，其余所有为负即，需训练n个分类器
可能出现数据偏斜问题（SVM对数据集不平衡不是十分敏感）
2.one-against-one
任意两个类别训练出一个分类器，需 $\frac{n(n-1)}{2}$ 个分类器，最后结果投票产生
3.层次支持向量机（H-SVMs）
4.无环图SVM（Directed Acyclic Graph SVMs，简称DAG-SVMs）

KKT条件

条件极值问题等式约束时用拉格朗日乘数法求解，不等式约束时用KKT(Karush Kuhn Tucker)条件求解
考虑n个不等式的条件极值问题
$\min_xf(x) \\ s.t. \ \ \ g_k(x)\leq0,k=0,1,2,...,n$
转化为
$L(x,\mu) = f(x)+\sum_{k=1}^n\mu_k \ g_k(x) \\u_k\geq0\\ g_k(x) \leq0 \\ \mu_kg_k(x)\leq0 \ \ \ \ \ \ \ \ \ \ \ \ \ (1)$

其中(1)式为互补松弛条件
当 $x$ 同时满足 $\frac{\partial L}{\partial x}=0$
时， $f (x)$ 取极值
KKT条件是拉格朗日乘数法在不等式条件下的推广。
若满足KKT条件，则求极值顺序可以调换
$\min_{w,b}f(x) = \min_{w,b}\max_{\alpha_i}L(w,b,\alpha) = \max_{\alpha_i}\min_{w,b}L(w,b,\alpha)$
$L$ 先对 $w, b$ 求极值，再对 $\alpha_i$ 求极值，即对 $w, b$ 求偏导等于0
得到 $w, b$ 与 $\alpha_i,x_i,y_i$ 的关系
$L(w,b,\alpha)=\frac{1}{2}\|w\|^2-\sum_{i=1}^m\alpha_i[y_i(w^Tx+b)-1]$
$\frac{\partial{L}}{\partial w}= w-\sum_{i=1}^m\alpha_iy_ix_i=0 \\ \frac{\partial{L}}{\partial b}= \sum_{i=1}^m\alpha_iy_i=0$
将关系带入 $L$
可以消去 $w, b$ 同时添加约束条件 $\sum{}_{i=1}^m\alpha_iy_i=0$
整理得 $\max_\alpha L(\alpha)=\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j$
此时只要在KKT即 $\sum{}_{i=1}^m\alpha_iy_i=0$ 的条件下优化 $\alpha_i$ 上式即可求得SVM的解，再通过 $\alpha_i$ 求解出 $w, b$
$w=\sum_{i=1}^m\alpha_iy_ix_i$
再由互补松弛条件 $\alpha_i(1-y_i(w^Tx+b))=0$ , $\alpha_i$ 不为0时，即可通过支持向量求出 $b_i$ ,当数据集严格可分时，所有 $b_i$ 的值都相同，不可分时，可取所有 $b_i$ 的平均值。

线性不可分数据集

对于线性不可分数据集，约束条件相互矛盾，没有解空间。此时需要在约束条件中引入松弛因子。将原本的约束条件 $y_i(w^Tx+b)\geq1$ ,改为 $y_i(w^Tx+b)\geq1-\xi_i$ ,即点到决策面的距离不一定绝对大于间隔，可能小于间隔或者分类错误。同时，我们想让松弛因子尽可能的小，从而时更多的点能满足一般的条件，则此时的优化问题变为
$\min \frac{1}{2}\|w\|^2+C\sum_{i=1}^m\xi \\ s.t. \;\; y_i(w^Tx_i + b) \geq 1 - \xi_i \;\;(i =1,2,...m)\\ \xi_i\geq0$
$C$ 为超参数，控制正则化，越大模型对异常点的忍耐越小，需要调参。

求解

依然通过KKT条件求解，此时问题有两组不等式约束，引入两组拉格朗日因子
$L(w,b,\xi,\alpha,\mu) = \frac{1}{2}\|w\|_2^2 +C\sum\limits_{i=1}^{m}\xi_i - \sum\limits_{i=1}^{m}\alpha_i[y_i(w^Tx_i + b) - 1 + \xi_i] - \sum\limits_{i=1}^{m}\mu_i\xi_i$
同样，先优化原本的变量，再优化乘数因子
$\min_{w,b,\xi}\max_{\alpha_i , \mu_i } L(w,b,\alpha, \xi,\mu)=\max_{\alpha_i , \mu_i }\min_{w,b,\xi} L(w,b,\alpha, \xi,\mu)$
求偏导等于0，得到
$\frac{\partial L}{\partial w} = 0 \;\Rightarrow w = \sum\limits_{i=1}^{m}\alpha_iy_ix_i \\ \frac{\partial L}{\partial b} = 0 \;\Rightarrow \sum\limits_{i=1}^{m}\alpha_iy_i = 0 \\ \frac{\partial L}{\partial \xi} = 0 \;\Rightarrow C- \alpha_i - \mu_i = 0$
消去 $w,b,\mu_i$ ,忽略常数项 $C$ ,得到
$L(\alpha) = \sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j$
可见优化函数和之前没有正则项时相同，只是多了约束条件 $C-\alpha_i-\mu_i=0$ , $\mu_i$ 只有约束条件 $\mu_i\geq0$ ,所以约束也等价于 $0\leq\alpha_i\leq C$
此时模型的支持向量情况较为复杂，只要 $\alpha_i >0$ ,就是支持向量，包括各种异常点。

四个异常点也是支持向量

weixin_42585595

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SVM整理

支持向量机Support Vector Machine数据集T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}T={(x1,y1),(x2,y2),...,(xN,yN)}其中xi∈Rn,yi=±1其中x_i\in R^n,y_i=\pm 1其中xi∈Rn,yi=±1SVM通过找最大间隔...
复制链接

扫一扫