【机器学习基础】最大边缘分类器

最新推荐文章于 2020-10-17 11:22:49 发布

VIP文章天堂的鸽子

最新推荐文章于 2020-10-17 11:22:49 发布

阅读量1.6k

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/tiantangdegezi/article/details/102731660

版权

本系列为《模式识别与机器学习》的读书笔记。

一，最大边缘分类器

考察线性模型的⼆分类问题，线性模型的形式为

$y(\boldsymbol{x})=\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x})+b\tag{7.1}$

其中 $\boldsymbol{\phi}(\boldsymbol{x})$ 表⽰⼀个固定的特征空间变换，并且显式地写出了偏置参数 $b$ 。训练数据集由 $N$ 个输⼊向量 $\boldsymbol{x}_1,\dots,\boldsymbol{x}_N$ 组成，对应的⽬标值为 $t_1,\dots,t_N$ ，其中 $t_n\in\{−1, 1\}$ ，新的数据点 $\boldsymbol{x}$ 根据 $y(\boldsymbol{x})$ 的符号进⾏分类。

现阶段，假设训练数据集在特征空间中是线性可分的，即根据定义，存在⾄少⼀个参数 $\boldsymbol{w}$ 和 $b$ 的选择⽅式，使得对于 $t_n = +1$ 的点，函数(7.1)都满⾜ $y(\boldsymbol{x}_n)>0$ ，对于 $t_n = −1$ 的点，都有 $y(\boldsymbol{x}_n)<0$ ，从⽽对于所有训练数据点，都有 $t_ny(\boldsymbol{x}_n)>0$ 。

如果有多个能够精确分类训练数据点的解，那么应该尝试寻找泛化错误最⼩的那个解。 ⽀持向量机解决这个问题的⽅法是：引⼊边缘（margin） 的概念，这个概念被定义为决策边界与任意样本之间的最⼩距离，如图7.1所⽰。

如图7.2，最⼤化边缘会⽣成对决策边界的⼀个特定的选择，这个决策边界的位置由数据点的⼀个⼦集确定，被称为⽀持向量，⽤圆圈表⽰。

在⽀持向量机中，决策边界被选为使边缘最⼤化的那个决策边界。

点 $\boldsymbol{x}$ 距离由 $y(\boldsymbol{x})=0$ 定义的超平⾯的垂直距离为 $\frac{|y(\boldsymbol{x})|}{\|\boldsymbol{w}\|}$ ，其中 $y(\boldsymbol{x})$ 的函数形式由公式(7.1)给出，我们感兴趣的是那些能够正确分类所有数据点的解，即对于所有的 $n$ 都有 $t_ny(\boldsymbol{x}_n)>0$ ，因此点 $\boldsymbol{x}_n$ 距离决策⾯的距离为
$\frac{t_ny(\boldsymbol{x}_n)}{\|\boldsymbol{w}\|}=\frac{t_n(\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x}_n)+b)}{\|\boldsymbol{w}\|}\tag{7.2}$

边缘由数据集⾥垂直距离最近的点 $\boldsymbol{x}_n$ 给出，希望最优化参数 $\boldsymbol{w}$ 和 $b$ ，使得这个距离能够最⼤化。因此最⼤边缘解可以通过下式得到：

$\underset{\boldsymbol{w}, b}{\arg \max}\left\{\frac{1}{\|\boldsymbol{w}\|} \min _{n}\left[t_{n}\left(\boldsymbol{w}^{T} \boldsymbol{\phi}\left(\boldsymbol{x}_{n}\right)+b\right)\right]\right\}\tag{7.3}$

注意到如果进⾏重新标度 $\boldsymbol{w}\to\kappa\boldsymbol{w}$ 以及 $b\to\kappa{b}$ ，那么任意点 $\boldsymbol{x}_n$ 距离决策⾯的距离 $\frac{t_ny(\boldsymbol{x}_n)}{\|\boldsymbol{w}\|}$ 不会发⽣改变。利用这个性质，对于距离决策⾯最近的点，令

$t_n(\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x}_n)+b)=1$

在这种情况下，所有的数据点会满⾜限制

$t_n(\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x}_n)+b)\ge1, n=1\dots,N$

这被称为决策超平⾯的标准表⽰。对于使上式取得等号的数据点，我们说限制被激活（active），对于其他的数据点，我们说限制未激活（inactive）。根据定义，总会存在⾄少⼀个激活限制，因为总会有⼀个距离最近的点，并且⼀旦边缘被最⼤化，会有⾄少两个激活的限制。这样，最优化问题就简化为了最⼤化 $\|\boldsymbol{w}\|^{-1}$ ，这等价于最⼩化 $\|\boldsymbol{w}\|^2$ ，因此我们要在上述限制条件下，求解最优化问题

$\underset{\boldsymbol{w},b}{\arg\min}\frac{1}{2}\|\boldsymbol{w}\|^{2}$

为了解决这个限制的最优化问题，引⼊拉格朗⽇乘数 $a_n\ge0$ 。每个限制条件都对应着⼀个乘数 $a_n$ ，从⽽可得下⾯的拉格朗⽇函数

$L(\boldsymbol{w},b,\boldsymbol{a})=\frac{1}{2}\|\boldsymbol{w}\|^{2}-\sum_{n=1}^{N}a_n\{t_n(\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x}_n)+b)-1\}\tag{7.4}$

其中 $\boldsymbol{a} = (a_1,\dots,a_N)^{T}$ 。令 $L(\boldsymbol{w},b,\boldsymbol{a})$ 关于 $\boldsymbol{w}$ 和 $b$ 的导数等于零，有
$\boldsymbol{w}=\sum_{n=1}^{N}a_nt_n\boldsymbol{\phi})(\boldsymbol{x}_n)\\ \sum_{n=1}^{N}a_nt_n=0$

使⽤这两个条件从 $L(\boldsymbol{w},b,\boldsymbol{a})$ 中消去 $\boldsymbol{a}$ 和 $b$ ，就得到了最⼤化边缘问题的对偶表⽰（dual representation），其中要关于 $\boldsymbol{a}$ 最⼤化

$\tilde{L}(\boldsymbol{a})=\sum_{n=1}^{N}a_n-\frac{1}{2}\sum_{n=1}^{N}\sum_{m=1}^{N}a_na_mt_nt_mk(\boldsymbol{x}_n,\boldsymbol{x}_m)\tag{7.5}$

其中 $k(\boldsymbol{x},\boldsymbol{x}^{\prime})=\boldsymbol{\phi}(\boldsymbol{x})^{T}\boldsymbol{\phi}(\boldsymbol{x}^{\prime})$ ，限制条件为

$a_n\ge0,n=1\dots,N\\ \sum_{n=1}^{N}a_nt_n=0$

通过使⽤公式消去 $\boldsymbol{w}$ ， $y(\boldsymbol{x})$ 可以根据参数 ${a_n\}$ 和核函数表⽰，即

$y(\boldsymbol{x})=\sum_{n=1}^{N}a_nt_nk(\boldsymbol{x},\boldsymbol{x}_n)+b\tag{7.6}$

满足如下性质：

$a_n\ge0\\ t_ny(\boldsymbol{x}_n)-1\ge0\\ a_n\{t_ny(\boldsymbol{x}_n)-1\}=0$

因此对于每个数据点，要么 $a_n = 0$ ，要么 $t_n y(\boldsymbol{x}_n) = 1$ 。任何使得 $a_n = 0$ 的数据点都不会出现在公式(7.5)的求和式中，因此对新数据点的预测没有作⽤。剩下的数据点被称为⽀持向量（support vector）。

解决了⼆次规划问题，找到了 $\boldsymbol{a}$ 的值之后，注意到⽀持向量 $\boldsymbol{x}_n$ 满⾜ $t_ny(\boldsymbol{x}_n)=1$ ，就可以确定阈值参数 $b$ 的值，可得
$t_n\left(\sum_{m\in{\mathcal{S}}}a_mt_mk(\boldsymbol{x}_n,\boldsymbol{x}_m)+b\right)=1\tag{7.7}$

最低0.47元/天解锁文章

天堂的鸽子

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
【机器学习基础】最大边缘分类器

本系列为《模式识别与机器学习》的读书笔记。一，最大边缘分类器考察线性模型的⼆分类问题，线性模型的形式为y(x)=wTϕ(x)+b(7.1)y(\boldsymbol{x})=\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x})+b\tag{7.1}y(x)=wTϕ(x)+b(7.1)其中 ϕ(x)\boldsymbol{\phi}(...
复制链接

扫一扫