图解-机器学习算法-支持向量机(02)

最新推荐文章于 2024-07-07 13:33:40 发布

重露成涓滴

最新推荐文章于 2024-07-07 13:33:40 发布

阅读量727

点赞数 2

分类专栏：机器学习算法文章标签：支持向量机机器学习算法

本文链接：https://blog.csdn.net/LiushaoMr/article/details/122336285

版权

机器学习算法专栏收录该内容

4 篇文章 1 订阅

订阅专栏

目录
01 支持向量机思想
02 支持向量机背后的最优化问题
2.1 点到直线距离
2.2 限定条件的最优化问题
2.3 目标函数
03 𝑺𝒐𝒇𝒕 𝑴𝒂𝒓𝒈𝒊𝒏 𝑺𝑽𝑴
3.1 𝑆𝑜𝑓𝑡 𝑀𝑎𝑟𝑔𝑖𝑛 𝑆𝑉𝑀 概念
3.1 𝑆𝑜𝑓𝑡 𝑀𝑎𝑟𝑔𝑖𝑛 𝑆𝑉𝑀 推导
04 𝒔𝒌𝒍𝒆𝒂𝒓𝒏 中的支持向量机
4.1 案例分析
05 非线性 𝑺𝑽𝑴 分类
5.2 案例分析
06 多项式核函数
6.1 学习的对偶算法
6.2 核函数
6.3 多项式核函数
6.4 通过核函数方式使 SVM 处理非线性问题
07 高斯核函数
7.1 高斯核函数
7.2 多项式核函数“升维”原理
7.3 高斯核函数“升维”原理
7.4 模拟高斯核函数“升维”原理
7,5 超参数 𝛾
08 𝒔𝒌𝒍𝒆𝒂𝒓𝒏 中的支持向量机（高斯核函数）
8.1 案例分析 8.2 参数调整
09 𝑺𝑽𝑴 思想解决回归问题
9.1 回归事项
9.2 案例分析
9.3 参数调整

02 支持向量机背后的最优化问题

由上节示例图上可以看出，𝑚𝑎𝑟𝑔𝑖𝑛 其实就是二倍的 𝑑 ， 𝑑 就是支撑向量到决策边界的距

离，那么求 𝑚𝑎𝑟𝑔𝑖𝑛 的最大值就是求 𝑑 的最大值。

2.1 点到直线的距离

如图所示：假设有条直线𝑙 定义为 𝑎𝑥 + 𝑏𝑦 + 𝑐 = 0 ，有一点的坐标为 𝑃(𝑥 0 , 𝑦 0 ) ，那么该

点到直线的距离：

我们可以知道，设𝑅(𝑥𝑅, 𝑦0)，𝑆(𝑥𝑜 , 𝑦𝑆)，由于𝑅, 𝑆在直线𝑙上，得到：

𝐴𝑥 𝑅 + 𝐵𝑦 0 + 𝐶 = 0

𝐴𝑥 0 + 𝐵𝑦 𝑆 + 𝐶 = 0

所以：

$x_{R}=\frac{-B y_{0}-C}{A}$

$y_{S}=\frac{-A x_{0}-C}{B}$

因此：

$|P R|=\left|x_{0}-x_{R}\right|=\left|\frac{A x_{0}+B y_{0}+C}{A}\right|$

$|P S|=\left|y_{0}-y_{S}\right|=\left|\frac{A x_{0}+B y_{0}+C}{B}\right|$

于是，

$|R S|=\sqrt{|P R|^{2}+|P S|^{2}}=\frac{\sqrt{A^{2}+B^{2}}}{A B} \cdot\left|A x_{0}+B y_{0}+C\right|$

由三角形面积可知：

$d \cdot|R S|=|P R| \cdot|P S|$

从而有：

$d=\frac{\left|A x_{0}+B y_{0}+C\right|}{\sqrt{A^{2}+B^{2}}}$

如果我们由二维空间扩展到高维空间中，点到直线的距离为：

$d=\frac{\left|A x_{1}+B x_{2}+C x_{3}+\cdots+Z x_{z}+b\right|}{\sqrt{A^{2}+B^{2}+C+\cdots+Z^{2}}}$

上面的公式可继续转换为：

$d=\frac{\left|\omega^{T} x+b\right|}{\|\omega\|}$

$\omega$ 为特征系数向量， $x$ 为特征向量，其中 $\|\omega\|=\sqrt{a^{2}+b^{2}+c^{2}+\cdots+z^{2}}$

2.2 限定条件的最优化问题

有了上面的公式后，我们就可以假定决策边界直线的公式为 $\omega ^{T}x+b=0$ ，支撑向量到它的距离为：

$d=\frac{\left|\omega^{T} x+b\right|}{\|\omega\|}$

那么除了支撑向量以外的点到决策边界的距离都应该大于 $d$ 。如图所示，我们将图中绿色点定义为1类别，橙色点定义为-1类别，那么就有：

实际上，这种分类方式与之前的0，1不同，这是为了后面的计算方便。当然，本质是一样的。无论是1，还是2或者3，只要把这两类区分开即可。那么有：

$\begin{cases}\frac{\omega^{T} x+b}{\|\omega\|} \geq d & \forall y^{(i)}=+1 \\ \frac{\omega^{T} x+b}{\|\omega\|}<-d & \forall y^{(i)}=-1\end{cases}$

既任意类别为1的绿色点距离决策边界的距离要大于等于 $d$ ；任意类别为-1的橙色点距离决策边界的距离要小于等于 $-d$ 。将上面的两个公式左右分别除以 $d$ 得：

$\begin{cases}\frac{\omega^{T} x+b}{\|\omega\| d} \geq 1 & \forall y^{(i)}=+1 \\ \frac{\omega^{T} x+b}{\|\omega\| d}<-1 & \forall y^{(i)}=-1\end{cases}$

可以观察： $\left \| \omega \right \|$ 是模，一个数字（标量）； $d$ 表示点到决策边界的距离，也是一个数字（标量）。那么对于分子中的向量 $\omega ^{T}$ ，除以一个标量仍然是一个向量，可以记为 $\omega_{d}^{T}$ ；分子中的标量 $b$ 除以一个标量自然也是一个标量，记为 $b_{d}$ 。所以上面的公式又可以转换为：

$\begin{cases}\omega_{d}^{T} x+b_{d} \geq 1 & \forall y^{(i)}=+1 \\ \omega_{d}^{T} x+b_{d}<-1 & \forall y^{(i)}=-1\end{cases}$

这样也就得出了由绿色点支撑向量构成的直线公式为（为了方便书写，我们将下角标的 $d$ 删除）：

$\omega ^{T}x+b=1$

橙色点支撑向量构成的直线公式为：

$\omega ^{T}x+b=-1$

同时我们会发现，我们的函数是两个式子，在逻辑回归的笔记中我们知道通过一个技巧可以将上面两个公式通过一个公式表示出来，既公式左右两边都乘以 $y^{(i)}$ ，得：

$y^{(i)}(\omega ^{T}x+b)\geq 1$

所以最终我们希望的是对于所有的样本数据点都满足上面的公式。

2.3 目标函数

我们的目标是求 $d$ 的最大值，既：

$\max \frac{\left|\omega^{T} x+b\right|}{\|\omega\|}$

根据之前的推导我们知道，无论是绿色点的支撑向量，还是橙色点的支撑向量构成的直线公式取绝对值后都为1，所以我们的目标函数又可以写为：.

$\max \frac{1}{\|\omega\|}$

即：

$min\left \| \omega \right \|$

为了方便求导，我们再将其转换一下，最终 $SVM$ 的目标函数为：

$min\frac{1}{2}\left \| \omega \right \|^{2}$

那么最后 $SVM$ 的最优化问题的两个函数为：

$\left\{\begin{array}{l} \min \frac{1}{2}\|\omega\|^{2} \\ \text { s.t. } y^{(i)}\left(\omega^{T} x+b\right) \geq 1 \end{array}\right.$

也就是说在 $y^{(i)}(\omega ^{T}x+b\geq 1)$ 的限制条件下，求目标函数 $\left \| \omega \right \|^{2}/2$ 的最优解。这就和我们之前学习过的算法不一样了，之前不论是线性回归还是逻辑回归，在求最优化问题时都是求全局最优化问题，也就是没有限定条件的目标函数最优解问题，这类问题对目标函数求导让它等于0，然后相应的极值点就是最大值或最小值的位置。