第六章支持向量机

最新推荐文章于 2021-09-28 12:20:35 发布

Cisse-away

最新推荐文章于 2021-09-28 12:20:35 发布

阅读量1k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_38311041/article/details/77102131

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

第六章支持向量机

第六章支持向量机

间隔与支持向量

划分超平面

如图，中间粗线所代表的超平面所产生的分类结果是最鲁棒(稳定)的，对未见示例的泛化能力最强。
这里写图片描述

表示超平面的线性方程

在样本空间中，划分超平面可通过如下线性方程来描述：

ω T x + b = 0

$\omega^Tx+b=0$ 其中

ω=(ω1;ω2;...;ωd) $\omega=(\omega_1;\omega_2;...;\omega_d)$ 为法向量，决定了超平面的方向；b为位移项，决定了超平面与原点之间的距离。则样本空间中任意点

x $x$ 到超平面(

ω $\omega$ ,b)的距离可写为
这里写图片描述

支持向量与间隔

假设超平面( $\omega$ ,b)能将训练样本正确分类，即对于 $(x_i,y_i)\in D$ ,令
这里写图片描述
如图，距离超平面最近的这几个训练样本点使上式的等号成立，它们被称为支持向量 (support vector),两个异类支持向量到超平面的距离之和为

它被称为间隔(margin)

支持向量机(Support Vector Machine,简称SVM)的基本型

为了找到具有最大间隔(maximum margin)的划分超平面，也就是让 $\gamma$ 最大，即
这里写图片描述
而最大化间隔，仅需最大化 $||\omega||^{-1}$ ，也就是最小化 $||\omega||^2$ ,即

这就是支持向量机的基本型

对偶问题(dual problem)

什么是对偶问题

任何一个求极大化的线性规划问题都有一个求极小化的线性规划问题与之对应，反之亦然，如果我们把其中一个叫原问题，则另一个就叫做它的对偶问题，并称这一对互相联系的两个问题为一对对偶问题。

如何得到它

例如对上式(支持向量机的基本型)使用拉格朗日乘子法可得到它的对偶问题:
这里写图片描述

核函数(kernel function)

由于在现实任务中，原始样本空间内可能并不存在一个能正确划分两类样本的超平面。对于这些问题，可将样本从原始空间映射到一个更高维度的特征空间，使其线性可分。
这里写图片描述
令 $\phi(x)$ 表示x映射后的特征向量，在特征空间中划分超平面所对应的模型可表示为：

则有，

其对偶问题是：

为了避免直接计算 $\phi(x_i)^T\phi(x_j)$ ,可以设想这样一个函数：
于是，

这里的 $\kappa(.,.)$ 就是核函数。上式显示出模型最优解可通过训练样本的核函数展开，这一展开式亦称支持向量展式(support vector expansion).

核函数定理

这里写图片描述

常用核函数

这里写图片描述

其它

除了上述方法还可以通过函数组合来得到核函数：
这里写图片描述

软间隔与正则化

软间隔(soft margin)

问题
解决
为缓解该问题的一个办法是允许支持向量机在一些样本上出错，这就用到了软间隔。如图：

之前的支持向量机形式要求所有样本均满足约束，这称为硬间隔。而软间隔允许某些样本不满足约束：

损失函数

三种常用的替代损失函数：
这里写图片描述

正则化(regulariztion)

无论用什么替代损失函数，这些学习模型都具有一个共性：优化目标中的第一项用来描述划分超平面的“间隔”大小，另一项 $\sum_{i=1}^ml(f(x_i),y_i)$ 用来表述训练集上的误差，可写为更一般的形式:
这里写图片描述

支持向量回归(Support Vector Regression)

对于样本 $(x,y)$ ，支持向量回归假设能容忍 $f(x)$ 与y之间最多有 $\epsilon$ 的偏差，则如图：
这里写图片描述
SVR问题可化为：

其中C为正则化常数， $l_{\epsilon}$ 是 $\epsilon$ -不敏感损失( $\epsilon$ -insensitive loss)函数。

其对偶问题是：

SVR的解形如：

引入核函数：

其中， $\kappa(x_i,x_j)=\phi(x_i)^T\phi(x_j)$ 为核函数。