统计学习：线性可分支持向量机(SVM)

最新推荐文章于 2024-06-11 15:17:35 发布

「已注销」

最新推荐文章于 2024-06-11 15:17:35 发布

阅读量425

点赞数

文章标签：算法机器学习支持向量机 svm 大数据

本文链接：https://blog.csdn.net/qq_44529027/article/details/119976243

版权

1. 模型

1.1 超平面

我们称下面形式的集合为超平面

\[\begin{aligned} \{ \bm{x} | \bm{a}^{T} \bm{x} - b = 0 \} \end{aligned} \tag{1} \]

其中\(\bm{a} \in \mathbb{R}^n\)且\(\bm{a} \ne \bm{0} , \bm{x}\in \mathbb{R}^n, b \in \mathbb{R}\)。解析地看，超平面是关于\(\bm{x}\)的非平凡线性方程的解空间(因此是一个仿射集，仿射集和凸集的概念参考Stephen Boyd的《凸优化》)从几何上看，它的的法向量为\(\bm{a}\)，而常数\(b\in \mathbb{R}\)决定了这个超平面从原点的偏移。这如何得到的呢？这是因为，若我们由法向量\(\bm{a}\)和超平面上一点\(\bm{x}_{0}\)确定超平面，则对超平面上任意一点\(\bm{x}\)，我们可以得到\(\bm{x} - \bm{x}_0\)一定垂直于\(\bm{a}\)，则超平面的集合便可以表示为

\[\begin{aligned} \{\bm{x} | \bm{a}^{T} (\bm{x} - \bm{x}_0) = 0\} \end{aligned} \tag{2} \]

\(\mathbb{R}^2\)中的几何化的解释如下图所示，其中深色箭头表示\(\bm{x} - \bm{x}_0\)：线性可分支持向量机学习算法
一个超平面将\(\mathbb{R}^n\)划分为两个半空间，(闭的)半空间是具有下列形式的集合：

\[\begin{aligned} \{\bm{x} | \bm{a}^T \bm{x} -b \leqslant 0\} \end{aligned} \tag{3} \]

即(非平凡)的线性不等式的解空间，其中\(a\ne 0\)。半空间是凸的，但不是仿射的。集合\(\{\bm{x} | \bm{a}^T \bm{x} -b < b\}\)是半空间\(\{\bm{x} | \bm{a}^T \bm{x} -b \leqslant 0\}\)的内部，称为开半空间。

1.2 线性可分支持向量机

我们定义样本空间为\(\mathcal{X} \subseteq \mathbb{R}^n\)，输出空间为\(\mathcal{Y} = \{+1, -1\}\)。\(\bm{X}\)为输入空间上的随机向量，其取值为\(\bm{x}\)，满足\(\bm{x} \in \mathcal{X}\)；\(Y\)为输出空间上的随机变量，设其取值为\(y\)，满足\(y \in \mathcal{Y}\)。我们将容量为\(m\)的训练样本表示为:

\[\begin{aligned} D = \{\{\bm{x}^{(1)}, y^{(1)}\}, \{\bm{x}^{(2)}, y^{(2)}\},..., \{\bm{x}^{(m)}, y^{(m)}\}\} \end{aligned}\tag{4} \]

当\(y^{(i)} = +1\)时，我们称\(\bm{x}^{(i)}\)为正例；当\(y^{(i)} = -1\)时，称\(\bm{x}^{i}\)为负例。\((\bm{x}^{(i)}, y^{(i)})\)称为样本点。
如果我们假设训练数据集是线性可分的，则我们可以在特征空间中找到一个分离超平面\(\{ \bm{x} | \bm{w}^T \bm{x} + b = 0 \}\)，将特征空间划分为\(\{ \bm{x} | \bm{w}^T \bm{x} + b > 0 \}\)和\(\{ \bm{x} | \bm{w}^T \bm{x} + b < 0 \}\)两个开半空间(显然法向量\(\bm{w}\)指
向的一侧为正，另一侧为负)，且为正的一侧对应负类，为负的一侧对应负类。

如果训练集线性可分，则我们存在无穷多个分离超平面将两类样本分开。如果我们采用感知机的误分类最小的训练策略(也就是仅仅保证分类的正确性)，那么我们将求得无穷多个解。我们接下来定义的线性可分支持向量机将利用“间隔最大化”求解最优分离超平面(即能将两组数据正确划分且间隔最大的超平面，我们在“学习策略”板块中将详述这一概念)，这时解是唯一的。
形式化地说，给定线性可分的数据集，通过间隔最大化策略学习得到的分离超平面为

\[\begin{aligned} \{ \bm{x} | \bm{w}^{*T} \bm{x} + b^{*} = 0 \} \end{aligned} \tag{5} \]

以及相应的分类决策函数

\[\begin{aligned} f(\bm{x}) = \text{sign} (\bm{w}^{*T} \bm{x} + b^{*}) \end{aligned} \tag{6} \]

称为线性可分支持向量机。

2. 学习策略

我们前面提到最好的超平面需要能将两组数据正确划分且间隔最大，那么间隔最大如何形式化地定

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
统计学习：线性可分支持向量机(SVM)

1. 模型1.1 超平面我们称下面形式的集合为超平面\[\begin{aligned}\{ \bm{x} | \bm{a}^{T} \bm{x} - b = 0 \} \end{aligned} \tag{1}\]其中\(\bm{a} \in \mathbb{R}^n\)且\(\bm{a} \ne \bm{0} , \bm{x}\in \mathbb{R}^n, b \in \mat...
复制链接

扫一扫