SVM——支持向量机（二）

有梦想的雨

已于 2022-07-04 16:13:01 修改

阅读量416

点赞数

分类专栏：机器学习文章标签：人工智能

于 2022-06-29 22:59:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41536160/article/details/125525489

版权

机器学习专栏收录该内容

21 篇文章 15 订阅

订阅专栏

4. 软间隔SVM

之前的描述都是基于数据是线性可分的情况。但是实际上并不能保证总是线性可分的；并且全部线性可分的分隔面并不一定是最好的，如下图所示，尽管实线实现了全部分隔，但其间隔很小，有轻微扰动时将会发生误判。相比之下，虚线的分隔面要更好一些。
在这里插入图片描述

为使得模型能够适应非线性数据集，同时对离群点不那么敏感，将优化模型进行 $l_1$ 正则化如下：
在这里插入图片描述

5. 线性 SVM 算法步骤

在这里插入图片描述
SMO算法原理

6. 核方法

6.1 特征映射

在这里插入图片描述

6.2 特征的最小均方（LMS）

在这里插入图片描述

但是，当变量的特征维数迅速扩大时，其特征的组合数也会急速扩大，如令 $\phi(x)$ 是三次幂之下的特征组合时，当 $x$ 只有三个维度，那么 $\phi(x)=[1,x_1,x_2,x_1^2,x_1x_2,x_1x_3,x_2^2,x_2x_3,x_3^2,x_1^2x_2,x_1^2x_3,x_2^2x_1,\cdots,x_3^3]$ ，即维度 $d$ 的三次幂 $d^3$ 。此时，模型的参数量和计算量都将急剧增加。

6.3 核方法

6.3.1 核方法的推导

为避免大量运算，考虑使用核方法，如下：
在这里插入图片描述
即，使用向量内积 $\langle\phi(x^{(j)},x^{(i)}) \rangle$ 替代特征的组合运算，从而大幅降低计算复杂度。

6.3.2 两个优点

在每次参数更新前需提前计算 $\langle\phi(x^{(j)},x^{(i)}) \rangle$ ，将时间复杂度降至 $O (p)$ ；
内积 $\langle\phi(x^{(j)},x^{(i)}) \rangle$ 的计算是便捷有效的，无需分别计算 $\phi(x^{(i)})$ ，直接降复杂度降至 $O (d)$ ，因为：

在这里插入图片描述

6.3.3 核方法的步骤

在这里插入图片描述

6.4 核方法的性质

6.4.1 多项式核

从上述推导中可以看出，核方法只需要保证这个特征映射 $\phi$ 是存在的，而不需要显式的写出这个特征映射。即只需说明，是否存在这样一个特征映射 $\phi$ ，使得 $K(x,z)=\langle\phi(x,z) \rangle=\phi(x)^T\phi(z)$ 对所有的 $x, z$ 都成立。

如果存在，则可以将选择特征映射 $\phi$ 的工作转换为选择 核函数 $K$ 的工作。这样做的好处在于，不要显式的特征映射写出来，而是只需要知道存在即可。具体例子如下：
在这里插入图片描述
更一般的，对于核 $K(x,z)=(x^Tz+c)^k$ ，对应于从 $1$ 维到 $d + k$ 维的特征映射。其工作空间是 $O(d^k)$ ，但核 $K (x, z)$ 的计算只需 $O (d)$ 的时间。

6.4.2 高斯核

核是一种相似性度量。

若 $\phi(x)$ 和 $\phi(z)$ 很接近，那么 $K(x,z)=\phi(x)^T\phi(z)$ 就会很大；相反的，若 $\phi(x)$ 和 $\phi(z)$ 差异很大，那么 $K(x,z)=\phi(x)^T\phi(z)$ 就会变小。因此可以将 $K (x, z)$ 视为 $\phi(x)$ 和 $\phi(z)$ 的相似性的度量。

此时，选择 高斯核，此时，若 $x$ 和 $z$ 很接近，那么趋于1；若差距很大，则趋于 0 。高斯核对于一个无限维的特征映射。
$\displaystyle K(x,z)=exp(-\frac{||x-z||^2}{2\sigma^2})$

6.4.3 一个核函数有效的充要条件

在这里插入图片描述

7 非线性SVM——核方法

在线性支持向量机学习的对偶问题中，用核函数 $K (x, z)$ 替代内积，求解得到的就是非线性支持向量机。
在这里插入图片描述

有梦想的雨

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
SVM——支持向量机（二）

硬间隔SVM之前的描述都是基于数据是线性可分的情况。但是实际上并不能保证总是线性可分的；并且全部线性可分的分隔面并不一定是最好的，如下图所示，尽管实线实现了全部分隔，但其间隔很小，有轻微扰动时将会发生误判。相比之下，虚线的分隔面要更好一些。为使得模型能够适应非线性数据集，同时对离群点不那么敏感，将优化模型进行 l1l_1l1 正则化如下：但是，当变量的特征维数迅速扩大时，其特征的组合数也会急速扩大，如令 ϕ(x)\phi(x)ϕ(x) 是三次幂之下的特征组合时，当 xxx 只有三个维度，那么 ϕ(x)
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。