统计学习：线性支持向量机(SVM)

最新推荐文章于 2024-07-24 20:25:39 发布

「已注销」

最新推荐文章于 2024-07-24 20:25:39 发布

阅读量641

点赞数

文章标签：算法机器学习深度学习支持向量机 python

本文链接：https://blog.csdn.net/qq_44529027/article/details/120735859

版权

本文介绍了线性支持向量机的软间隔最大化策略，通过引入松弛变量解决线性不可分问题，并详细阐述了常规的带约束优化算法和基于合页损失函数的无约束优化算法，探讨了合页损失函数的特点及其在梯度下降法中的应用。

摘要由CSDN通过智能技术生成

学习策略

软间隔最大化

上一章我们所定义的“线性可分支持向量机”要求训练数据是线性可分的。然而在实际中，训练数据往往包括异常值(outlier)，故而常是线性不可分的。这就要求我们要对上一章的算法做出一定的修改，即放宽条件，将原始的硬间隔最大化转换为软间隔最大化。
给定训练集

\[\begin{aligned} D = \{\{\bm{x}^{(1)}, y^{(1)}\}, \{\bm{x}^{(2)}, y^{(2)}\},..., \{\bm{x}^{(m)}, y^{(m)}\}\} \end{aligned}\tag{1} \]

其中\(\bm{x}^{(i)} \in \mathcal{X} \subseteq \mathbb{R}^n\)，\(y^{(i)} \in \mathcal{Y} = \{+1, -1\}\)。
如果训练集是线性可分的，则线性可分支持向量机等价于求解以下凸优化问题：

\[\begin{aligned} \underset{\bm{w}, b}{\max} \quad \frac{1}{2} || \bm{w}||^2\\ \text{s.t.} \quad y^{(i)} (\bm{w}^T \bm{x}^{(i)} + b) \geqslant 1 \\ \quad (i = 1, 2, ..., m) \end{aligned} \tag{2} \]

其中\(y^{(i)} (\bm{w}^T \bm{x}^{(i)} + b) -1 \geq 0\)表示样本点\((\bm{x}^{(i)}, y^{(i)})\)满足函数间隔大于等于1。现在我们对每个样本点\((\bm{x}^{(i)}, y^{(i)})\)放宽条件，引入一个松弛变量\(\xi_{i} \geqslant 0\),使约束条件变为\(y^{(i)} (\bm{w}^T \bm{x}^{(i)} + b) \geq 1-\xi_{i}\)。并对每个松弛变量进行一个大小为\(\xi_{i}\)的代价惩罚，目标函数转变为：\(\frac{1}{2} || \bm{w}||^2+C\sum_{i=1}^{m}\xi_{i}\)，此处\(C>0\)称为惩罚系数。此时优化函数即要使间隔尽量大(使\(\frac{1}{2} || \bm{w}||^2\)尽量小),又要使误分类点个数尽量少。这称之为软间隔化。

线性支持向量机

就这样，线性支持向量机变为如下凸二次规划问题(原始问题)：

\[\begin{aligned} \underset{\bm{w}, b}{\max} \quad \frac{1}{2} || \bm{w}||^2 + C\sum_{i=1}^{m}\xi_{i}\\ \text{s.t.} \quad y^{(i)} (\bm{w}^T \bm{x}^{(i)} + b) \geqslant 1-\xi_{i} \\ \xi_{i} \geqslant 0 \\ \quad (i = 1, 2, ..., m) \end{aligned} \tag{3} \]

因为是凸二次规划，因此关于\((\bm{w}, b, \bm{\xi})\)的解一定存在，可以证明\(\bm{w}\)的解唯一，但\(b\)的解可能不唯一，而是存在于一个区间。
设\((2)\)的解为\(\bm{w}^{*}, b^*\)，这样可得到分离超平面\(\{\bm{x} | \bm{w}^{*T}\bm{x}+b=0\}\)和分类决策函数\(f(\bm{x})=\text{sign}(\bm{w}^{*T}\bm{x}+b^*)\)

算法

常规的带约束优化算法

和上一章一样，我们将原始问题\((2)\)转换为对偶问题进行求解ÿ

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习：线性支持向量机(SVM)

学习策略软间隔最大化上一章我们所定义的“线性可分支持向量机”要求训练数据是线性可分的。然而在实际中，训练数据往往包括异常值(outlier)，故而常是线性不可分的。这就要求我们要对上一章的算法做出一定的修改，即放宽条件，将原始的硬间隔最大化转换为软间隔最大化。给定训练集\[\begin{aligned} D = \{\{\bm{x}^{(1)}, y^{(1)}\}, \{\b...
复制链接

扫一扫