机器学习笔记之——支持向量机（二）

最新推荐文章于 2023-10-11 15:38:00 发布

caitzh

最新推荐文章于 2023-10-11 15:38:00 发布

阅读量155

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/caitzh/article/details/88585993

版权

机器学习专栏收录该内容

11 篇文章 1 订阅

订阅专栏

支持向量机（二）

1. 核函数

在支持向量机（一）里，我们介绍了线性可分的情况，但是当数据本身是线性不可分时，原有的 SVM 将无法找到最优的超平面。但是我们可以把每个样本映射到高维空间里，使其线性可分，如下图所示：

在这里插入图片描述

原来的样本在二维空间里线性不可分，但是用 $\phi$ 函数映射到 3 维空间之后，便可以用一个线性超平面将其分开。

我们可以把这个思想应用到 SVM 里，来解决线性不可分的问题。用 $\phi(\boldsymbol x)$ 表示将原始样本的特征向量 $\boldsymbol x$ 映射到高维空间之后的向量，那么原来的目标函数变为：
$\min_{\boldsymbol w,b} \frac{1}{2} \Vert \boldsymbol w \Vert_2^2 \tag{1}$ $s.t.\quad y_i(\boldsymbol w^T \phi (\boldsymbol x_i)+b)\ge 1, i = 1,2\dots,m$ 对偶问题为：
$\max_{\boldsymbol \alpha} \sum_{i=1}^m \alpha_i - \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m \alpha_i \alpha_j y_i y_j \phi (\boldsymbol x_i)^T \phi (\boldsymbol x_j) \tag{2}$ $\begin{aligned} s.t.\quad & \sum_{i=1}^m \alpha_i y_i = 0 \\ & \alpha_i \ge 0, \quad i = 1,2,\dots,m \end{aligned}$ 此式子需要计算映射后的高维向量的内积 $\phi (\boldsymbol x_i)^T \phi (\boldsymbol x_j)$ ，倘若 $\phi (\boldsymbol x_i)$ 维度很高甚至是无穷维，则此计算十分费时。如果我们找到一个函数，能直接原向量 $\boldsymbol x_i$ 计算映射后的向量内积，那就能大大降低计算复杂度，这样的函数便称为核函数，表示如下：
$K(\boldsymbol x_i, \boldsymbol x_j)=\phi (\boldsymbol x_i)^T \phi (\boldsymbol x_j)$ 常用的核函数有：

线性核： $K(x_i,x_j)=x_i^Tx_j$
多项式核： $K(x_i,x_j)=（x_i^Tx_j)^d$
高斯核： $K(x_i,x_j)=exp(-\frac{\Vert x_i-x_j \Vert^2}{2 \sigma^2})$
拉普拉斯核： $K(x_i,x_j)=exp(-\frac{\Vert x_i-x_j \Vert }{\sigma})$
Sigmoid 核： $K(x_i,x_j)=tanh(\beta x_i^Tx_j+\theta)$

2. 软间隔

前面我们求解 SVM 问题的时候，约束是 $y_i(\boldsymbol w^T \phi (\boldsymbol x_i)+b)\ge 1, i = 1,2\dots,m$ ，即对于所有的样本，都要求他们在分类间隔带的两侧，但是这样的要求太过严格，容易过拟合，易受异常值影响，反而难以得到分类间隔最大的超平面，甚至找不到线性可分的超平面。

在这里插入图片描述

若忽视圈出的蓝色的点，可以得到分类间隔较大的分类器，若要把该样本也分类正确，则得到的分类器间隔太小，泛化能力较差。

解决此问题的办法是允许分类器在一些样本上出错，从而仍然保持分类器间隔较大。引入松弛变量 $\xi_i \ge 0$ ，将目标函数变为：
$\min_{\boldsymbol w,b} \frac{1}{2} \Vert \boldsymbol w \Vert_2^2 + C\sum_{i=1}^m \xi_i \tag{3}$ $\begin{aligned} s.t.\quad & y_i(\boldsymbol w^T \phi (\boldsymbol x_i)+b)\ge 1-\xi_i, i = 1,2\dots,m \\ & \xi_i \ge 0, \quad i = 1,2,\dots,m \end{aligned}$ 此时我们不再要求 $y_i(\boldsymbol w^T \phi (\boldsymbol x_i)+b)\ge 1$ 严格满足，而是允许比 1 小 $\xi_i$ ，当然我们希望 $\xi_i$ 越小越好，因此把其作为正则项加到目标函数后面，在最大化分类间隔（对应目标函数第一项 $\Vert \boldsymbol w \Vert_2^2$ ）和把样本都分对（对应目标函数第二项 $\sum_{i=1}^m \xi_i$ ）之间权衡。此时对偶问题的形式为：
$\max_{\boldsymbol \alpha} \sum_{i=1}^m \alpha_i - \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m \alpha_i \alpha_j y_i y_j \phi (\boldsymbol x_i)^T \phi (\boldsymbol x_j) \tag{4}$ $\begin{aligned} s.t.\quad & \sum_{i=1}^m \alpha_i y_i = 0 \\ & 0 \le \alpha_i \le C, \quad i = 1,2,\dots,m \end{aligned}$
而 KKT 部分条件为：
$\alpha_i(y_i f(\boldsymbol x_i)-1+\xi_i)=0$ $C=\alpha_i+\mu_i, \quad \mu_i \xi_i=0$ 分析如下：

若 $\alpha_i=0$ ，对应样本不是支持向量，对分类平面无影响
若 $\alpha_i>0$ ，则 $y_i f(\boldsymbol x_i)=1-\xi_i$ ，是支持向量
- 若 $\alpha_i < C$ ，则 $\mu_i > 0$ ，因而 $\xi_i=0$ ，恰好在分界边界
- 若 $\alpha_i = C$ ，则 $\mu_i = 0$ ，则 $\xi_i \ge 0$
  - 若 $\xi_i \le 1$ ，该样本在分类间隔带
  - 若 $\xi_i > 1$ ，该样本被错分

caitzh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记之——支持向量机（二）

支持向量机（二）1. 核函数在支持向量机（一）里，我们介绍了线性可分的情况，但是当数据本身是线性不可分时，原有的 SVM 将无法找到最优的超平面。但是我们可以把每个样本映射到高维空间里，使其线性可分，如下图所示：原来的样本在二维空间里线性不可分，但是用 ϕ\phiϕ 函数映射到 3 维空间之后，便可以用一个线性超平面将其分开。我们可以把这个思想应用到 SVM 里，来解决线性不可...
复制链接

扫一扫