【机器学习第6章——支持向量机】

笙箫以近

已于 2024-07-29 13:11:31 修改

阅读量543

点赞数 16

文章标签：支持向量机算法机器学习

于 2024-07-28 23:11:19 首次发布

本文链接：https://blog.csdn.net/m0_53694086/article/details/140758228

版权

机器学习第6章——支持向量机

6.支持向量机（SVM）

6.支持向量机（SVM）

对于线性可分来说，使用线性函数的超平面
在高维特征空间中——核函数
用最优化理论的学习算法——拉格朗日训练
实现了从统计学习理论派生的学习偏差——泛化支持向量机是从Vapnik和Chervonenkis的统计学习理论派生的分类器

6.1 间隔与支持向量

超平面方程
$\bf{w}\rm{^T}\bf{x}\rm{+b=0}$
$w=\begin{pmatrix} w_1 \\ w_2 \\...\\w_d \end{pmatrix}$
支持向量
- 训练数据离超平面最近的向量
最优分类超平面
- 一个超平面，如果它能将训练样本没有错误地分开，并且两类训练样本中离超平面最近的样本与超平面之间的距离是最大的
分类间隔
- 两类样本中离分类面最近的样本到分类面的距离
间隔
- 距离分类超平面最近的上下两面的距离
将训练样本分开的超平面可能有很多，哪一个更好呢？——SVM所要讨论的问题
- “正中间”的：鲁棒性最好，泛化能力最强

在这里插入图片描述

最大间隔：寻找参数
$\bf{w}\rm{和b}$
使得
$\gamma$
最大
$arg\,\,\max_{\bf{w}\rm{,b}}\frac{2}{||\bf{w}||}\\ s.t\quad y_i(\bf{w}\rm{^T}\bf{x}\rm{_i+b})\geq1,i=1,2...,m$
为了最大化间隔
$仅需\frac{1}{||\bf{w}||}最大化,也就是||\bf{w}||\rm{最小化}$
可以等价于最小化
$||\bf{w}||^2$
即：
$arg\,\,\min_{\bf{w}\rm{,b}}\frac{1}{2}||\bf{w}||^2\quad\quad\quad s.t\quad y_i(\bf{w}\rm{^T}\bf{x}\rm{_i+b})\geq1,i=1,2...,m$
这是一个凸二次规划问题，需要用到拉格朗日对偶法，假定这里已经求出最优解
$w^*和b^*$
由此可以得到分类超平面
$\bf{w^*}\rm{^T}\bf{x}\rm{+b^*=0}$
分类决策函数
$f(x)=sign(\bf{w^*}\rm{^T}\bf{x}\rm{+b^*})$

例子，已知一组训练数据集
$正例点:x_1=(3,3)^T,x_2=(4,3)^T\\ 负例点:x_3=(1,1)^T$

6.2 对偶问题

第一步：引入拉格朗日乘子
$\alpha_i\geq0$
得到拉格朗日函数
$L(w,b,\alpha)=\frac{1}{2}||w||^2+\sum_{i=1}^m\alpha_i(1-y_i(w^Tx_i+b))$
第二步：对w和b求偏导
第三步，代回

在这里插入图片描述

最终可得到
$\max_\alpha\quad \sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j\\ s.t.\quad \sum_{i=1}^m\alpha_iy_i=0,\alpha_i\geq0,i=1,2...,m$
最终模型
$f(x)=w^Tx+b=\sum_{i=1}^m\alpha_iy_ix_i^Tx+b$
KKT条件
$\begin{cases} \alpha_i\geq0;\\ y_if(x_i)-1\geq0;\\ \alpha_i(y_if(x_i)-1)=0 \end{cases}$
即
$\alpha_i=0或y_if(x_i)=1$
求解方法（SMO）
- 基本思路：不断执行如下两个步骤直至收敛
  - 第一步：选取一对需更新的变量
    $\alpha_i和\alpha_j$
  - 第二步：固定
    $\alpha_i和\alpha_j$
    以外的参数，求解对偶问题更新
    $\alpha_i和\alpha_j$

仅考虑
$\alpha_i和\alpha_j$
时，对偶问题的约束
$0=\sum_{i=1}^m\alpha_iy_i$
变为
$\alpha_iy_i+\alpha_jy_j=c,\alpha_i\geq0,\alpha_j\geq0$
用
$\alpha_i$
表示
$\alpha_j$
代入对偶问题
$\max_{\alpha}\quad \sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j$
对任意支持向量
$x_s,y_s)$
有
$y_sf(x_s)=1$
由此可解出b

为提高鲁棒性，通常使用支持向量求解的平均值

6.3 核函数

若不存在一个能正确划分两类样本的超平面，

就需要将样本从原始空间映射到一个更高维的特征空间,使样本在这个特征空间内线性可分

在这里插入图片描述

$\color{red}{如果原始空间是有限维(属性数有限)，那么一定存在一个高维特征空间使样本线性可分 }$
设样本x映射后的向量为
$\phi(x)$
划分超平面为
$f(x)=w^T\phi(x)+b$

原始问题
$arg\,\,\min_{\bf{w}\rm{,b}}\frac{1}{2}||\bf{w}||^2\\ s.t\quad y_i(\bf{w}\rm{^T}\bf{x}\rm{_i+b})\geq1,i=1,2...,m$
对偶问题
$\max_\alpha\quad \sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_j\phi(x_i)^T\phi(x_j)\\ s.t.\quad \sum_{i=1}^m\alpha_iy_i=0,\alpha_i\geq0,i=1,2...,m$
预测
$f(x)=w^T\phi(x)+b=\sum_{i=1}^m\alpha_iy_i\phi(x_i)^Tx+b$
基本思路：涉及核函数
$\kappa(x_i,x_j)=\phi(x_i)^T\phi(x_j)$
绕过显式考虑特征映射、以及计算高维内积的困难

在这里插入图片描述

Mercer定理：若一个对称函数所对应的核矩阵半正定，则它就能作为核函数来使用
任何一个核函数，都隐式地定义了一个RKHS（再生核希尔伯特空间）
“核函数选择”成为决定支持向量机性能的关键。

6.4 软间隔与正则化

软间隔
- 允许某些样本不满足约束
  $KaTeX parse error: Undefined control sequence: \mit at position 12: y_i(\bf{w}\̲m̲i̲t̲{^T}\bf{x}\rm{_…$
硬间隔
- 所有样本都必须划分正确

在这里插入图片描述

优化目标可写为

6.5 支持向量回归

基本思路：允许模型输出于实际输出间存在
$2\epsilon$

落入
$2\epsilon$
间隔带的样本不计算损失

在这里插入图片描述

原始问题
对偶问题
预测
$f(x)=\sum_{i=1}^m(\hat \alpha_i-\alpha_i)x_i^Tx+b$

6.6 核方法

令
$\mathbb{H}$
为核函数k对应的再生核希尔伯特空间
$||h||_{\mathbb{H}}$
表示空间中h的范数，对于任意单调递增函数
$\Omega:[0,\infty]->\mathbb{R}$
和任意非负损失函数l
$\mathbb{R}^m->[0,\infty]$
在这里插入图片描述

笙箫以近

关注

16
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
【机器学习第6章——支持向量机】

就需要将样本从原始空间映射到一个更高维的特征空间,使样本在这个特征空间内线性可分。将训练样本分开的超平面可能有很多，哪一个更好呢？凸二次规划问题，能用优化计算包求解，但可以有更高效的办法。，那么一定存在一个高维特征空间使样本线性可分。为提高鲁棒性，通常使用支持向量求解的平均值。若不存在一个能正确划分两类样本的超平面，表示空间中h的范数，对于任意单调递增函数。为核函数k对应的再生核希尔伯特空间。第一步：选取一对需更新的变量。以外的参数，求解对偶问题更新。设样本x映射后的向量为。间隔带的样本不计算损失。
复制链接

扫一扫