最优间隔分类器（一）

最新推荐文章于 2022-03-20 15:39:59 发布

y小川

最新推荐文章于 2022-03-20 15:39:59 发布

阅读量780

点赞数

分类专栏： machine-learning 文章标签： svm分类器最优间隔分类器

machine-learning 专栏收录该内容

34 篇文章 6 订阅

订阅专栏

通过前三章的讨论，当我们拿到一给定数据集时第一要务是寻找一条分界线时分界线两边的点到线的（几何）间隔最大，达到这一要求即认为这是个好的分类器。这样的分类器会在正负样本间画出一个断层（几何间隔）。

这里写图片描述

现在我们又一个线性可分的训练集（即存在一超平面将正负样本分开），如何找到有最大几何间隔的分类器呢？用数学语言描述该问题：

m a x γ, w, b s . t . γ y (i) (w T x (i) + b) \geq γ, i = 1, \dots, m ∥ w ∥ = 1.

$\begin{align} max_{\gamma, w, b} \quad &\gamma \\ s.t. \quad & y^{(i)}(w^T x^{(i)} + b) \ge \gamma, \quad i=1,\cdots, m \\ & \Vert w \Vert = 1. \\ \end{align}$

我们要最大化数据集的最小几何间隔 $\gamma$ ，该间隔小于等于数据集中所有点几何间隔。解决这个问题就是确定一组 $(w,b)$ 使得几何间隔最大。需要注意 $\Vert w \Vert = 1$ 是一个非凸约束，标准的最优化方法难以解决，我们需要转换成更易求解的形式：

m a x γ, w, b s . t . γ ^ ∥ w ∥ y (i) (w T x (i) + b) \geq γ^, i = 1, \dots, m

$\begin{align} max_{\gamma, w, b} \quad &\frac{\hat{\gamma}}{\Vert w \Vert} \\ s.t. \quad & y^{(i)}(w^T x^{(i)} + b) \ge \hat{\gamma}, \quad i=1,\cdots, m \\ \end{align}$

现在我们要优化这个参数 $\hat{\gamma}/\Vert w \Vert$ ，且保证所有样本函数间隔都小于 $\hat{\gamma}$ 。通过公式转化我们摆脱了 $\Vert w \Vert =1$ 的条件要求，但是 $\hat{\gamma}/\Vert w \Vert$ 依然是一个非凸目标函数还需继续转换。之前我们提到通过缩放 $(w,b)$ 可以改变 $\hat{\gamma}$ 的值，我们现在令 $\hat{\gamma}=1$ ，那么 $\hat{\gamma}/\Vert w \Vert = 1 /\Vert w \Vert$ ，又 $1 /\Vert w \Vert$ 的最大值就是 $\Vert w \Vert^2$ 的最小值，公式改写为：

m a x γ, w, b s . t . 1 2 ∥ w ∥ 2 y (i) (w T x (i) + b) \geq 1, i = 1, \dots, m

$\begin{align} max_{\gamma, w, b} \quad &\frac{1}{2} \Vert w \Vert^2 \\ s.t. \quad & y^{(i)}(w^T x^{(i)} + b) \ge 1, \quad i=1,\cdots, m \\ \end{align}$

至此问题转化为一个凸二次目标函数在线性约束下的求解问题。求解的结果就是最优间隔分类器。最优分类器的第一部分即到此为止，接下来我们会讨论拉格朗日对偶性，这可以帮助推导问题的对偶形式，转化为对偶形式后就可使用核方法将样本映射到高维空间，大大提高模型的可用性。