支持向量机（一）——线性可分支持向量机

最新推荐文章于 2022-03-28 20:42:48 发布

Vic时代

最新推荐文章于 2022-03-28 20:42:48 发布

阅读量2.4k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/victoriaw/article/details/80314411

版权

本文介绍了支持向量机的基本概念，重点讲解了线性可分支持向量机的间隔最大化原理，包括函数间隔与几何间隔的概念，以及如何通过拉格朗日对偶问题求解最优分类超平面。通过对训练集的分析，阐述了找到最优分类超平面的重要性及其在未知实例上的泛化能力。

摘要由CSDN通过智能技术生成

支持向量机(Support Vector Machine, SVM)是一种二分类模型。它的基本思想是间隔最大化。

1、线性可分支持向量机

给定训练集 $T=\{(\boldsymbol x_1, y_1), (\boldsymbol x_2, y_2), ..., (\boldsymbol x_m, y_m)\}$ ，其中 $(\boldsymbol x_i, y_i)$ 表示第 $i$ 个训练样本。输入实例 $\boldsymbol x_i \in \mathbb R^d$ ，标记 $y_i\in \{ +1, -1\}$ ，+1代表正例，-1代表反例。

假设训练集线性可分，即存在超平面能正确划分训练集，并且很容易看出这种超平面有无穷多个。分类超平面用 $\boldsymbol \omega^T \boldsymbol x+b = 0$ 表示，对所有 $\boldsymbol \omega^T \boldsymbol x+b>0$ 的实例，超平面将其划分为正类；对所有 $\boldsymbol \omega^T \boldsymbol x+b<0$ 的实例，超平面将其划分为反例。

学习的目的，就是找到这样一个分类超平面，使其对训练集进行正确划分。上面也说了，在训练集线性可分的情况下，这样的分类超平面有无穷多个。支持向量机通过间隔最大化求最优分类超平面，这个最优超平面的解是唯一的。

1.1 函数间隔与几何间隔

函数间隔
超平面 $\boldsymbol \omega^T \boldsymbol x+b=0$ 关于样本点 $(\boldsymbol x_i, y_i)$ 的函数间隔为
$γ^i = y i (ω T x i + b), (1)$ $\hat \gamma_i = y_i(\boldsymbol \omega^T \boldsymbol x_i+b), \tag 1$
关于训练集T的函数间隔为 $γ^= min i γ^i . (2)$ $\hat \gamma = \min_i \hat \gamma_i. \tag 2$

对于分类超平面 $\boldsymbol \omega^T \boldsymbol x+b=0$ 与样本 $(\boldsymbol x_i, y_i)$ ， $(\boldsymbol \omega^T \boldsymbol x_i+b)$ 的符号与 $y_i$ 的符号是否一致能够表示分类是否正确； $|\boldsymbol \omega^T \boldsymbol x_i+b|$ 能够相对地表示 $\boldsymbol x_i$ 距离超平面的远近，而实例点距离分类超平面的远近可以表示分类的确信程度。所以函数间隔不仅包含了超平面是否将样本正确分类的信息，还包含了超平面对样本分类的确信度。

几何间隔
超平面 $\boldsymbol \omega^T \boldsymbol x+b=0$ 关于样本点 $(\boldsymbol x_i, y_i)$ 的几何间隔为
$γ i = y i ( ω T x i + b ) | | ω | |, (3)$ $\gamma_i = \frac{y_i(\boldsymbol \omega^T \boldsymbol x_i+b)}{||\boldsymbol \omega||}, \tag3$
关于训练集T的函数间隔为 $γ = min i γ i . (4)$ $\gamma = \min_i \gamma_i. \tag 4$