PRML Chapter 07 Sparse Kernel Machines

最新推荐文章于 2021-12-14 20:11:52 发布

zhoudinglive

最新推荐文章于 2021-12-14 20:11:52 发布

阅读量292

点赞数

分类专栏： PRML读书笔记

本文链接：https://blog.csdn.net/carpentercc/article/details/83143289

版权

PRML读书笔记专栏收录该内容

9 篇文章 2 订阅

订阅专栏

PRML Chapter 07 Sparse Kernel Machines

第六章提到的核函数和核方法，有一个显著的问题，即核函数 $k(x_n,x_m)$ 必须对所有的数据点都进行求值，这对于训练阶段是不可接受的，对于预测阶段，同样也是不可以接受的。因此，我们可以考虑使用稀疏核机(Sparse kernel machines)，这种方法的一个典型特征是训练得到的模型仅仅依赖于少数几个数据点(也称支持向量)，因此被叫做稀疏核机。

文章目录

PRML Chapter 07 Sparse Kernel Machines
- Support vector machine
- Support vector regression

Support vector machine

支持向量机(Support vector machine)是一种典型的稀疏核机。考虑数据集 $D=\{ (x_1,y_1),(x_2,y_2),...,(x_m,y_m) \}$ ， $y_i \in \{ -1, 1 \}$ 。分类学习最基本的想法就是基于训练集 $D$ 在样本空间中找到一个划分超平面，将不同类别的样本尽量区分开来，但这样的超平面通常很多，支持向量机通过最大间隔(margin)的方法选出最优超平面。
在这里插入图片描述

现在，考虑超平面 $\boldsymbol{\omega}^T\boldsymbol{x}+b=0$ 能够将所有的数据点都正确的分类，如上图所示。可以看到，距离超平面最近的这几个训练样本点使得式(7.1)成立，

$\begin{cases} \boldsymbol{\omega}^T\boldsymbol{x}_i+b \geq +1, y_i = +1 \\ \boldsymbol{\omega}^T\boldsymbol{x}_i+b \leq -1, y_i = -1 \end{cases} \tag{7.1}$

因此，他们被称为支持向量(support vector)，两个异类支持向量到超平面的距离之和为，

$\gamma = \frac{2}{||\boldsymbol{\omega}||} \tag{7.2}$

式(7.2)被称为间隔，欲找到最大间隔(maximum margin)的划分超平面，也就是要找到能满足式(7.1)中约束的参数 $\boldsymbol{\omega},b$ ，使得式(7.2)中的 $\gamma$ 最大，即，

$\max_{\boldsymbol{\omega},b} \frac{2}{||\boldsymbol{\omega}||} \\\tag{7.3} s.t. y_i(\boldsymbol{\omega}^T\boldsymbol{x}_i+b) \geq 1, i=1,2,...,m$

式(7.3)等价于

$\max_{\boldsymbol{\omega},b} \frac{1}{2}||\boldsymbol{\omega}||^2 \\ \tag{7.4} s.t. y_i(\boldsymbol{\omega}^T\boldsymbol{x}_i+b) \geq 1, i=1,2,...,m$

由于式(7.4)本身就是一个凸二次规划问题，因此可以直接用现成的优化算法计算其最优解，但通常使用其对偶形式，更加高效的进行计算。考虑使用拉格朗日乘子 $\alpha_i \geq 0$ ，其对偶形式可以写为，

$\max_{\boldsymbol{\alpha} } \sum_{i=1}^m \alpha_i - \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m \alpha_i \alpha_j y_i y_j \boldsymbol{x}_i^T\boldsymbol{x}_j \\ s.t. \sum_{i=1}^m\alpha_iy_i = 0 \\ \alpha_i \geq 0, i = 1,2,..,m \tag{7.5}$

一般来说，使用SMO(sequential Minimal Optimization)对其进行高效的求解。上述关于SVM的讨论都假设数据点线性可分，但是实际中往往会有类别重叠的情况发生，因此，我们可以引入软间隔(soft margin)的概念，使得一个数据点可以不满足约束，

$y_i(\boldsymbol{\omega}^T\boldsymbol{x}_i+b) \geq 1 \tag{7.6}$

从而，优化目标可以变为，

$\min_{\boldsymbol{\omega},b} \frac{1}{2}||\boldsymbol{\omega}||^2 + C\sum_{i=1}^m L(y_i(\boldsymbol{\omega}^T\boldsymbol{x}_i+b) - 1) \tag{7.7}$

其中， $L$ 是损失函数， $C$ 则作为惩罚参数，当其趋近于无穷大时，迫使所有样本都满足式(7.6)，当其为有限值时，式(7.7)允许一些样本不满足约束。引入松弛变量(slack variables)代替损失函数，则软间隔支持向量机可以表示为，

$\min_{\boldsymbol{\omega},b,\xi_i} \frac{1}{2}||\boldsymbol{\omega}||^2 + C\sum_{i=1}^m \xi_i \\ s.t. y_i(\boldsymbol{\omega}^T\boldsymbol{x}_i+b) \geq 1-\xi_i \\ \xi_i \geq 0, i = 1, 2, ..., m \tag{7.8}$

Support vector regression

支持向量回归(Support vector regression)，是一种利用支持向量进行回归预测的方法。考虑我们需要拟合的函数为，

$f(\boldsymbol{x}) = \boldsymbol{\omega}^T\phi(\boldsymbol{x}) \tag{7.9}$

则，支持向量回归希望能够找到 $f(\boldsymbol{x})$ ，其与真实值 $y$ 的偏差为 $\epsilon$ 。这显然可以看作是以 $f(\boldsymbol{x})$ 为中心，构建一个宽度为 $2\epsilon$ 的间隔带，若数据点落入此间隔带，则认为被预测正确，因此，其具体形式可以表示为，

$\min_{\boldsymbol{\omega},b} \frac{1}{2}||\boldsymbol{\omega}||^2 + C \sum_{i=1}^mL_{\epsilon}(f(\boldsymbol{x})-y_i) \tag{7.10}$

引入松弛变量 $\xi_i,\hat{\xi_i}$ ，可以将上式重写为，

$\min_{\boldsymbol{\omega},b,\xi_i,\hat{\xi_i}} \frac{1}{2}||\boldsymbol{\omega}||^2+C\sum_{i=1}^m(\xi_i+\hat{\xi_i}) \\ s.t. f(\boldsymbol{x})-y_i \leq \epsilon + \xi_i \\ y_i-f(\boldsymbol{x}) \leq \epsilon + \hat{\xi_i} \\ \xi_i \geq 0, \hat{\xi_i} \geq 0, i=1,2,...,m \tag{7.11}$

zhoudinglive

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
PRML Chapter 07 Sparse Kernel Machines

PRML Chapter 07 Sparse Kernel Machines第六章提到的核函数和核方法，有一个显著的问题，即核函数k(xn,xm)k(x_n,x_m)k(xn,xm)必须对所有的数据点都进行求值，这对于训练阶段是不可接受的，对于预测阶段，同样也是不可以接受的。因此，我们可以考虑使用稀疏核机(Sparse kernel machines)，这种方法的一个典型特征是训练得到的模型...
复制链接

扫一扫