SVM目标函数的一些理解

最新推荐文章于 2024-08-19 14:45:48 发布

Anadem

最新推荐文章于 2024-08-19 14:45:48 发布

阅读量1.1k

点赞数 2

分类专栏：机器学习文章标签：支持向量机 svm 机器学习

本文链接：https://blog.csdn.net/aloneingchild/article/details/110246594

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

写在前面

学习SVM的对目标函数有些疑问，做了一些笔记。感谢ZKX同学提供的帮助，（PS：这篇博客可能会继续更新

SVM

我们的问题是设定一个超平面，去最大化样本点和这个超平面的距离，这个距离我们称之为Margin（间隔）。

$\gamma=\min _{i} \gamma^{(i)}$

在这里插入图片描述

函数间隔 Functional margin：

这一点老师的PPT上并没有给出来，所以可能学习的时候有些混淆。

$\hat{\gamma}^{(i)}=y^{(i)}\left(\omega^{T} x^{(i)}+b\right)$

这里我们扩大 $\omega,b$ n 倍数会改变 $\hat{\gamma}$ 。因此我们引入几何间隔。

几何间隔 Geometric margin ：

$\gamma^{(i)}=y^{(i)}\left(\left(\frac{\omega}{\|\omega\|}\right)^{T} x^{(i)}+\frac{b}{\|\omega\|}\right)$

几何间隔具有缩放不变性：

$\begin{aligned}\gamma^{(i)} &=y^{(i)}\left(\left(\frac{c \cdot \omega}{\|c \cdot \omega\|}\right)^{T} x^{(i)}+\frac{c \cdot b}{\|c \cdot \omega\|}\right) \\&=y^{(i)}\left(\left(\frac{\omega}{\|\omega\|}\right)^{T} x^{(i)}+\frac{b}{\|\omega\|}\right)\end{aligned}$

有了这个性质我们可以对求解目标进行限制，简化优化问题。

这里要注意：如果 $|\omega|=1$ ,那么函数间隔和几何间隔相等。如果超平面参数 $\omega$ 和 $b$ 成比例地改变（超平面没有改变）,函数间隔也按此比例改变，而几何间隔不变。

SVM的目标问题：

$\max _{\omega, b} \min _{i}\left\{\gamma^{(i)}\right\}$

目标问题可以转化为：

$\begin{array}{ll}\max _{\gamma, \omega, b} & \gamma\\\text {s.t.} & \gamma^{(i)} \geq \gamma, \quad \forall i\end{array}$

其中，间隔为函数间隔：

$\gamma^{(i)}=y^{(i)}\left(\left(\frac{\omega}{\|\omega\|}\right)^{T} x^{(i)}+\frac{b}{\|\omega\|}\right)$

因此目标问题转化为：

$\begin{array}{ll}\max _{\gamma, \omega, b} & \gamma\\\text {s.t.} & y^{(i)}\left(\omega^{T} x^{(i)}+b\right) \geq \gamma\|\omega\| \ \quad \forall i\end{array}$

利用几何间隔不变性，一方面为了使优化目标更加简单。

另一方面有点类似于标准化的思想因为不同模型由于数据分布的原因, $\omega$ 和 $b$ 可能会大不相同（数据集1的分法和数据集2的分法结果的好坏因为 $\omega$ 和 $b$ 比例的不同难以直观比较）。但是把他们的最小间隔都设置为1后，就有比较性了。同一个数据的不同超平面，也有了比较的方法
$\min _{i}\left\{y^{(i)}\left(\omega^{T} x^{(i)}+b\right)\right\}=1$