西瓜书、南瓜书第6章学习笔记

最新推荐文章于 2024-07-12 10:42:54 发布

LazyPunk330

最新推荐文章于 2024-07-12 10:42:54 发布

阅读量32

点赞数

文章标签：学习笔记

本文链接：https://blog.csdn.net/LazyPunk/article/details/133362071

版权

支持向量机

一、算法原理

从几何角度，对于线性可分数据集，支持向量机就是找距离正负样本都最远的超平面，相比于感知机其解是唯一的，且不偏不倚，泛化性能更好。

二、超平面

1.n维空间的超平面 $(w^{T}x+b=0,$ 其中 $w,x\in \mathbb{R}^{n})$ ：

（1）超平面方程不唯一

（2）法向量 $w$ 和位移项 $b$ 确定一个唯一超平面

（3）法向量 $w$ 垂直于超平面（缩放 $w,b$ 时，若缩放倍数为负数会改变法向量方向）

（4）法向量 $w$ 指向的那一半空间为正空间，另一半为负空间

（5）任意点 $x$ 到超平面的距离公式为 $r=\frac{|w^{T}x+b|}{||w||}$

2.【证明】：对应于任意一点 $x_{0}=(x_{1}^{0},x_{2}^{0},...,x_{n}^{0})^{T}$ ，设其在超平面 $w^{T}x+b=0$ 上的投影点为 $x_{1}=(x_{1}^{1},x_{2}^{1},...,x_{n}^{1})^{T}$ ，则 $w^{T}x_{1}+b=0$ ，且向量 $\overrightarrow{x_{1}x_{0}}$ 与法向量 $w$ 平行，所以有

$|w^{T}x_{0}+b| = ||w||\cdot ||\overrightarrow{x_{1}x_{0}}|| = ||w||\cdot r$

三、几何间隔

对于给定的数据集 $X$ 和超平面 $w^{T}x+b=0$ ，定义数据集 $X$ 中的任意一个样本点 $(x_{i},y_{i}),y_{i}\in \left \{ -1,1 \right \},i=1,2,,...,m$ 关于超平面的几何间隔为

$\gamma _{i}=\frac{y_{i(w^{T}x_{i}+b)}}{||w||}$

正确分类时： $\gamma _{i}> 0$ ，几何间隔此时也等价于点到超平面的距离

未正确分类时： $\gamma _{i}< 0$

对于给定的数据集 $X$ 和超平面 $w^{T}x+b=0$ ，定义数据集 $X$ 关于超平面的几何间隔为：

数据集 $X$ 中所有样本点的几何间隔最小值

$\gamma =\underset{i=1,2,...,m}{min}\gamma_{i}$

四、支持向量机

1.模型：

给定向性可分数据集 $X$ ，支持向量机模型希望求得数据集 $X$ 关于超平面的几何间隔 $\gamma$ 达到最大的那个超平面，然后套上一个 $sign$ 函数实现分类功能

$y=sign(w^{T}x+b)=\{ _{-1,w^{T}x+b < 0}^{1,w^{T}x+b > 0}$

所以其本质和感知机一样，仍然是在求一个超平面。

但几何间隔最大的超平面就一定是前面所说的那个“距离正负样本都最远的超平面”吗？

是的，原因如下：

（1）当超平面没有正确划分正负样本时：几何间隔最小的为误分类点，因此 $\gamma< 0$

（2）当超平面正确划分超平面时： $\gamma\geqslant 0$ ，且越靠近中央 $\gamma$ 越大

2.策略：

给定线性可分数据集 $X$ ，设 $X$ 中几何间隔最小的样本为 $(x_{min},y_{min})$ ，那么支持向量机赵超平面的过程可以转化为以下带约束条件的优化问题：

假设该问题的最优解为 $(w^{*},b^{*})$ ，那么 $(\alpha w^{*},\alpha b^{*}),\alpha \in\mathbb{R}^{+}$ 也是最优解，且超平面也不变，因此还需对 $w,b$ 做一定限制才能使得上述优化问题有可解的唯一解。不妨令 $y_{min}(w^{T}x_{min}+b)=1$ ,

因为对特定的 $(x_{min},y_{min})$ 来说，能使得 $y_{min}(w^{T}x_{min}+b)=1$ 的 $\alpha$ 有且仅有一个。

因此上述优化问题进一步转化为：

进一步恒等变换得：

此优化问题为含不等式约束的优化问题，且为凸优化问题，因此可以直接用很多专门求解凸优化问题的方法求解该问题。

支持向量机通常采用拉格朗日对偶来求解。

3.拉格朗日对偶：

对于一般的约束优化问题：

若目标函数 $f(x)$ 是凸函数，约束集合是凸集，则称上述优化问题为凸优化问题。

特别地， $g_{i}(x)$ 是凸函数， $h_{j}(x)$ 是线性函数时，约束集合为凸集，该优化问题为凸优化问题。显然，支持向量机的目标函数 $\frac{1}{2}||w||^{2}$ 是关于 $w$ 的凸函数，不等式约束 $1-y_{i}(w^{T}x_{i}+b)$ 也是关于 $w$ 的凸函数，因此支持向量机是一个凸优化问题。

设图3.1中的优化问题的定义域为 $D=dom F\cap \bigcap_{i=1}^{m} dom g_{i} \cap \bigcap_{j=1}^{n} dom h_{j}$ ，可行集为

$\widetilde{D}=\left \{ x|x\in D ,g_{i}(x)\leqslant 0,h_{j}(x)=0\right \}$ ，显然 $\widetilde{D}$ 是 $D$ 的子集，最优值为 $p^{*}=min\left \{ f(\widetilde{x}) \right \}$ 。由拉格朗日函数的定义可知上述优化问题的拉格朗日函数为：

$L(x,\mu ,\lambda )=f(x)+\sum_{i=1}^{m}\mu_{i}g_{i}(x)+\sum_{j=1}^{n} \lambda_{j}h_{j}(x)$

其中 $\mu=(\mu_{1},\mu_{2},...,\mu_{m})^{T}$ ， $\lambda=(\lambda_{1},\lambda_{2},...,\lambda_{n})^{T}$ 为拉格朗日乘子向量。

定义上述优化问题的拉格朗日对偶函数 $\Gamma (\mu,\lambda)$ （注意其自变量不包含 $x$ ）为 $L(x,\mu ,\lambda )$ 关于 $x$ 的下确界，即

$\Gamma (\mu,\lambda)=\underset{x\in D}{\inf} L(x,\mu,\lambda)=\underset{x\in D}{\inf}(f(x)+\sum_{i=1}^{m}\mu_{i}g_{i}(x)+\sum_{j=1}^{n} \lambda_{j}h_{j}(x))$