《机器学习》阅读笔记第六章

最新推荐文章于 2024-09-27 16:47:35 发布

Golden_Baozi

最新推荐文章于 2024-09-27 16:47:35 发布

阅读量85

点赞数

分类专栏： Datawhale寒假学习吃瓜系列

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51655046/article/details/128858783

版权

Datawhale寒假学习吃瓜系列专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Contents

SVM 基本型
对偶问题
核函数
软间隔与正则化

SVM 基本型

想法：找到位于两类训练样本“正中间”的超平面，其面对样本的扰动时最稳健，如何找呢？有以下要求：

正确分类：定义 $y_i \in \{-1,1\}$ ，则

$(\boldsymbol{w}^T \boldsymbol{x}_i +b)y_i \geq 1$

最大间隔：“间隔”是超平面的方向向量穿过距离超平面最近的样本点而构成的超平面，表示为 $\frac{2}{||\boldsymbol{w}||}$ ，于是

$\begin{aligned} & {\rm max} \;\; \frac{2}{||\boldsymbol{w}||} \\[2mm] \implies & {\rm min} \;\; \frac{1}{2}||\boldsymbol{w}||^2 \end{aligned}$

这是支持向量机的基本型.

对偶问题

写出支持向量机基本型的拉格朗日函数：

$L(\boldsymbol{w},b,\boldsymbol{\lambda}) = \frac{1}{2}||\boldsymbol{w}||^2 + \sum_{i}^{m} \lambda_i[1-(\boldsymbol{w}^T \boldsymbol{x}_i +b)y_i]$

这个不等式约束优化问题的 KKT 条件是：

$\begin{aligned} \boldsymbol{w} &= \sum_{i=1}^{m}\lambda_iy_i\boldsymbol{x}_i\\[2mm] 0 &= \sum_{i=1}^{m} \lambda_iy_i\\[2mm] \lambda_i & \geq 0 \\[2mm] (\boldsymbol{w}^T \boldsymbol{x}_i +b)y_i - 1 &\geq 0 \\[2mm] [1-(\boldsymbol{w}^T \boldsymbol{x}_i +b)y_i]\lambda_i &= 0 \end{aligned}$

将第一个式子代入原式，其余作为新的约束，得到对偶式

${\rm max} \;\; \sum_{i=1}^{m} \lambda_i - \frac{1}{2} \sum_{i=1}^m\sum_{j=1}^m \lambda_i \lambda_jy_iy_j \boldsymbol{x}_i^T\boldsymbol{x}_j \tag{*}$

发现：

对这个式子做优化比原来简单，只需处理一些等式约束和一些简单的不等式约束，原式则需要处理线性的不等式约束
由 KKT 条件的后三个式子，若某个样本出现在求和式中，则必有该样本在间隔上
也就是说，最终的训练过程只与支持向量有关

如何求解这个二次规划问题呢？可以采用 SMO 算法，SMO 算法的基本思路是先固定除了 $\lambda_i$ 的所有参数，再求关于 $\lambda_i$ 的极值点，直至目标函数收敛，步骤是：

选取一对需要更新的变量 $\lambda_i,\lambda_j$
固定除此之外的所有参数，求解目标式 $(*)$ ，以更新 $\lambda_i,\lambda_j$
选取时，需要使选取的两变量所对应样本之间的问隔最大

核函数

SVM 基本型采用超平面作为分割，这是训练样本线性可分。如果要处理非线性可分问题（如“异或”问题），需要将样本从原始平面映射到一个高维空间（特征空间）：

$\longmapsto \phi(x)$

此时，新的分类模型可表示为：

$f(\boldsymbol{x}) = \boldsymbol{w}^T \phi(\boldsymbol{x}) + b$

将这个模型代入 SVM 基本型中求解即可.

然而，在求解中，涉及到计算特征空间中的内积 $\phi(\boldsymbol{x_i})^T\phi(\boldsymbol{x_j})$ ，比较困难，希望找到这样一个函数，满足：

$\kappa(\boldsymbol{x_i},\boldsymbol{x_j}) = \phi(\boldsymbol{x_i})^T\phi(\boldsymbol{x_j})$

这样，就将高维空间的内积计算转换为原空间的某个函数 $\kappa(\cdot,\cdot)$ 的计算结果，这样的函数称为核函数，常用的核函数有：

线性核： $x_i^Tx_j$
多项式核： $x_i^Tx_j)^d$
高斯核： ${\rm exp}(-\frac{||x_i-x_j||^2}{2\sigma^2})$

等等。

软间隔与正则化

以上内容假定样本在特征空间中是线性可分的，然而，在现实情况中：

往往难以确定合适的核函数使得训练样本在特征空间中线性可分
即使找到了核函数，也难以确定结果是否由过拟合造成的

处理办法是：允许某些样本不满足约束

$(\boldsymbol{w}^T \boldsymbol{x}_i +b)y_i \geq 1$

这样做称为“软间隔”，将间隔放入某个损失函数 $\mathcal{L}(\cdot)$ 中，构成了一个正则化项，加入目标函数中：

${\rm min} \;\; \frac{1}{2}||\boldsymbol{w}||^2 + \lambda\sum_{i=1}^{m} \mathcal{L}\big((\boldsymbol{w}^T \boldsymbol{x}_i +b)y_i - 1\big)$

直观地看， $\lambda$ 越大，最小化上式越接近最小化正则项式，就要求间隔越“硬”，取一个有限值 $\lambda$ ，允许一些样本不满足约束。这样，就能适当缓解过拟合的问题。类似基本 SVM 的解法，可以用拉格朗日乘子法构造对偶问题，再用迭代方法求解。

常用的损失函数 $\mathcal{L}(\cdot)$ 有：

0-1 损失： $\mathbb{I}(\cdot)$
Hinge 损失： ${\rm max} (0,1-z)$
指数损失： ${\rm exp} (-z)$
对率损失： $\log (1+{\rm exp} (-z))$

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。