百面机器学习 #3 经典算法：01-3 核函数支撑向量机SVM

最新推荐文章于 2020-12-14 14:15:46 发布

petSym

最新推荐文章于 2020-12-14 14:15:46 发布

阅读量321

点赞数

分类专栏：百面机器学习机器学习数学文章标签：机器学习支撑向量机

本文链接：https://blog.csdn.net/petsym/article/details/106794405

版权

机器学习同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

百面机器学习

7 篇文章 0 订阅

订阅专栏

数学

7 篇文章 0 订阅

订阅专栏

文章目录

1.3 非线性SVM与核技巧

非线性问题往往不好求解，所以希望能用解线性分类问题的方法解决这个问题。所采取的方法是进行一个非线性变换，将非线性问题变换为线性问题，通过解变换后的线性问题的方法求解原来的非线性问题。
用线性分类方法求解非线性分类问题分为两步：
- 首先使用一个变换将原空间的数据映射到新空间；
- 然后在新空间里用线性分类学习方法从训练数据中学习分类模型。

1.3.1 核函数

通过一个非线性变换将输入空间 $\mathcal X$ （欧氏空间 $\mathrm R^n$ 的子集或离散集合）对应于一个特征空间（希尔伯特空间 $\mathcal H$ ）。如果存在这样的映射
$\phi(x): \mathcal X \rightarrow \mathcal H$
使得对所有的 $x,z\in\mathcal X$ ，函数 $K$ 满足条件
$K(x,z)=\phi(x)\cdot\phi(z)$
则称 $K (x, z)$ 为核函数， $\phi(x)$ 为映射函数，式中 $K$ 为映射函数的的内积。
核技巧的想法是，在学习与预测中只定义核函数 $K (x, z)$ ，而不显式地定义映射函数 $\phi$ ，因为前者直接计算相对更简单。学习是隐式地在特征空间进行的，不需要显式地定义特征空间和映射函数.
给定核函数，即使对应同一高维特征空间，也可取不同的映射函数。即核函数和映射函数是一对多的关系。

1.3.2 核技巧在支持向量机中的应用

在线性支持向量机的对偶问题中，无论是目标函数还是决策函数（分离超平面）都只涉及输入实例与实例之间的内积
- 对偶问题的目标函数
  $\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} = \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}K(x_i,x_j)-\sum_{i=1}^{N} \alpha_{i}$
- 分类决策函数
  $f(x)=\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x \cdot x_{i}\right)+b^{*}\right) =\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}K(x,x_i)+b^{*}\right)$

1.3.3 常用核函数

多项式核函数（polynomial kernel function）
$K(x,z)=(x\cdot z+1)^p$
对应的支持向量机是一个p 次多项式分类器。分类决策函数成为
$f(x)=\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x_{i} \cdot x+1\right)^{p}+b^{*}\right)$
高斯核函数（Gaussian kernel function）
$K(x,z)=\exp\left(-\frac{||x-z||^2}{2\sigma^2}\right)$
对应的支持向量机是高斯径向基函数（radial basis function）分类器。
分类决策函数成为
$f(x)=\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} \exp \left(-\frac{\left\|x-x_{i}\right\|^{2}}{2 \sigma^{2}}\right)+b^{*}\right)$

1.4 其他问题

1.4.1 是否存在一组参数使SVM训练误差为0：是

分类决策函数为
$f(x)=\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} K(x,x_i)+b^{*}\right)$
这里我们先只考虑不取sign之前的预测结果 $\hat y(x)=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} K(x,x_i)+b^{*}$

使用高斯核的SVM，同时我们对任意 $i$ ，固定 $\alpha_i=1$ 以及 $b = 0$ ，只保留高斯分布的参数 $\sigma$ ，得到

$\hat y(x)=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} \exp \left(-\frac{\left\|x-x_{i}\right\|^{2}}{2 \sigma^{2}}\right)+b^{*} =\sum_{i=1}^{N} y_{i} \exp \left(-\frac{\left\|x-x_{i}\right\|^{2}}{2 \sigma^{2}}\right)$
对任意一个训练样本 $x_j$ 代入有
$\hat y(x_j)-y_j=\sum_{i=1}^{N_{s}} y_{i} \exp \left(-\frac{\left\|x_j-x_{i}\right\|^{2}}{2 \sigma^{2}}\right)-y_j =\sum_{i=1,i\not=j}^{N} y_{i} \exp \left(-\frac{\left\|x_j-x_{i}\right\|^{2}}{2 \sigma^{2}}\right)$
$\begin{aligned} \|\hat y(x_j)-y_j\| &=\left\|\sum_{i=1,i\not=j}^{N} y_{i} \exp \left(-\frac{\left\|x_j-x_{i}\right\|^{2}}{2 \sigma^{2}}\right)\right\| \\ &\le\sum_{i=1,i\not=j}^{N} \left\|y_{i} \exp \left(-\frac{\left\|x_j-x_{i}\right\|^{2}}{2 \sigma^{2}}\right)\right\|\\ &=\sum_{i=1,i\not=j}^{N} \exp \left(-\frac{\left\|x_j-x_{i}\right\|^{2}}{2 \sigma^{2}}\right) \end{aligned}$
若给定训练集中不存在在同一位置的两个点，即我们可以认为 $\|x_i-x_j\|\ge \epsilon$ ，其中 $\epsilon$ 是一个非0的数。
取 $\frac{\epsilon^{2}}{2 \sigma^{2}}=\log N \Rightarrow$
$\begin{aligned} \sum_{i=1,i\not=j}^{N} \exp \left(-\frac{\left\|x_j-x_{i}\right\|^{2}}{2 \sigma^{2}}\right) &\le \sum_{i=1,i\not=j}^{N} \exp \left(-\frac{\epsilon^{2}}{2 \sigma^{2}}\right)\\ &=\sum_{i=1,i\not=j}^{N} \exp \left(-\log N\right)\\ &=\sum_{i=1,i\not=j}^{N}\frac{1}{N}=\frac{N-1}{N}<1 \end{aligned}$
所以，对于任意一个样本 $x_j$ ，它的预测结果 $\hat y(x_j)$ 和真实结果 $y_j$ 的距离小于1，即当真实标签 $y_j=1$ ， $\hat y(x_j)>0,\operatorname{sign}(\hat y(x_j))=1$ ，即预测正确。同理真实标签 $y_j=-1$ 也预测正确。
综上，我们可以找到这样一组 $\alpha_i,b,\sigma^2$ 得到训练误差为0.
但是这组参数不一定是SVM的解。

1.4.2 训练误差为0的SVM分类器一定存在吗：是

SVM的解要求 $y_j\cdot\hat y(x_j)=y_j(w\cdot x_j +b)\ge1$ ，这比前述的预测正确的条件更强。
我们仍然固定 $b = 0$
$\begin{aligned} y_j\cdot\hat y(x_j)&=y_j\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} K(x_j,x_i)\\ &=\sum_{i=1,i\not=j}^{N} \alpha_{i}^{*}y_j y_{i} K(x_j,x_i)+\alpha_{j}^{*}y_j y_{j} K(x_j,x_j)\\ &=\sum_{i=1,i\not=j}^{N} \alpha_{i}^{*}y_j y_{i} K(x_j,x_i)+\alpha_{j} \end{aligned}$
取很大的 $\alpha_j$ ，同时很小的 $\sigma$ 是的核映射项很小，则很大的、占主导地位的项 $\alpha_j$ 一定大于1，满足SVM的解的约束。
因此，存在SVM最优解分类误差为0.

1.4.3 加入松弛变量的SVM的训练误差可以为0吗：不一定

使用SMO算法训练的加入松弛变量的SVM不一定能得到训练误差为0的模型。
当松弛参数 $C$ 选取较小的值，（正则项） $\frac{1}{2}\|w\|^2$ 将占据优化目标函数的较大比重。这样，一个带有训练误差、但参数较小的点将成为更优的结果。
一个简单的特例是，当C取0时，w也取0即可达到优化目标，但是显然此时我们的训练误差不一定能达到0。

petSym

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
百面机器学习 #3 经典算法：01-3 核函数支撑向量机SVM

文章目录1.3 非线性SVM与核技巧1.3.1 核函数1.3.2 核技巧在支持向量机中的应用1.3.3 常用核函数1.4 其他问题1.4.1 是否存在一组参数使SVM训练误差为0：是1.4.2 训练误差为0的SVM分类器一定存在吗：是1.4.3 加入松弛变量的SVM的训练误差可以为0吗：不一定1.3 非线性SVM与核技巧非线性问题往往不好求解，所以希望能用解线性分类问题的方法解决这个问题。所采取的方法是进行一个非线性变换，将非线性问题变换为线性问题，通过解变换后的线性问题的方法求解原来的非线性问题。
复制链接

扫一扫

专栏目录