吃瓜教程——第六章

Kevin_0629

已于 2022-01-23 15:28:38 修改

阅读量563

点赞数

文章标签：支持向量机算法机器学习

于 2022-01-23 15:28:16 首次发布

本文链接：https://blog.csdn.net/Snoopy0629/article/details/122645747

版权

本文深入探讨了支持向量机（SVM）的核心概念，包括间隔最大化、对偶问题的解决以及核函数的应用。通过拉格朗日乘子法转换为对偶问题，简化了SVM的求解，并介绍了如何利用核函数将数据映射到高维空间实现非线性分类。此外，文章还涉及了软间隔与正则化的概念，以应对实际问题中的不确定性。

摘要由CSDN通过智能技术生成

一、间隔与支持向量(SVM)

给定训练样本集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\},y_i \in\{-1,+1\}$ ，分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面，将不同类别的样本区分出来
在这里插入图片描述
从上图可知，所有的直线都可以将两类样本区分，但是在图中效果最好的是那条红色的线，因为该划分超平面对训练样本的扰动的"容忍"性最好
在样本空间中，划分超平面可通过如下的线性方程来描述 $w^Tx+b=0\tag{1.1}$ 其中 $w=(w_1;w_2;...;w_d)$ 为法向量，决定超平面的方向
b为位移项，决定了超平面与原点之间的距离
样本空间中任意点 $x$ 到超平面 $(w, b)$ 的距离可表示为 $r=\frac{\left|w^Tx+b\right|}{\left||w\right||}\tag{1.2}$
假设超平面 $(w, b)$ 能将训练样本正确分类，即对于 $(x_i,y_i)\in D$ ，若 $y_i=+1$ ，则有 $w^Tx_i+b >0$ ；若 $y_i=-1$ ，则有 $w^Tx_i+b <0$ 令 $\left\{\begin{array}{c}w^Tx_i+b \geqslant +1,y_i=+1\\w^Tx_i+b \leqslant -1, y_i=-1\end{array} \right\tag{1.3}.$
在这里插入图片描述

支持向量:如上图所示，距离超平面最近的这几个训练样本点使得满足公式(1.3)的称为支持向量
间隔:两个异类支持向量到超平面的距离之和为 $\gamma=\frac{2}{\left||w\right||}\tag{1.4}$ 称为间隔
支持向量机的思想就是要找到公式(1.4)中的最大间隔即寻找满足公式(1.3)中的约束条件 $w$ 和 $b$ 使得 $\gamma_{max}$ 即 $\underset{w,b}{\max}\frac{2}{\left\| w \right\|}\\s.t. y_i\left( w^Tx_i+b \right) \geqslant 1,i=1,2,...,m\tag{1.5}$
从公式(1.5)可知，想要求出最大化间隔，则针对于目标函数来说，需要最大化 $\left||w\right||^{-1}$ ，根据命题的等价性，以及方便求解性，于是可以等价的转化为求 $\left||w\right||^2_{min}$ ，于是可以将公式(1.5)可以重新改写成 $\underset{w,b}{min}\frac{1}{2}\left||w\right||^2\\ s.t. y_i(w^Tx_i+b)\geqslant1,i=1,2,...,m\tag{1.6}$ ，这就是支持向量机(support Vector machine)的基础模型

二、对偶问题

通过求解公式(1.6)来求出最大化间隔划分超平面所对应的模型是 $f(x)=w^Tx+b\tag{1.7}$ 通过分析可知本身是一个凸二次规划问题，但是可以根据问题具有对偶问题(dual problem)来求解该模型，显得更为方便便捷
对公式(6.6)使用拉格朗日乘子法，可以得出其对偶问题，即根据每一条的约束条件均添加一个拉格朗日乘子 $\alpha_i\geqslant0$ ，该问题的拉格朗日函数可写成 $L(w,b,\alpha)=\frac{1}{2}\left||w\right||^2+\sum_{i=1}^m\alpha_i(1-y_i(w^Tx_i+b))\tag{1.8}$ 其中 $\alpha=(\alpha_1;\alpha_2;...;\alpha_m)$ ，让 $L(w,b,\alpha)$ 分别对 $w$ 和 $b$ 进行求偏导可得
$w=\sum_{i=1}^{m}\alpha_iy_ix_i\tag{1.9}$
$0=\sum_{i=1}{m}\alpha_iy_i\tag{1.10}$
将式(1.9)代入(1.8)中，既可以将 $L(w,b,\alpha)$ 中的 $w$ 和 $b$ 消去，同时考虑(1.10)的约束条件，最终得到的式(1.6)的dual problem是 $\underset{\alpha}{max}\sum_{i=1}{m}\alpha_i-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_{i}^{T}x_j\\ s.t. \sum_{i=1}^{m}\alpha_iy_i=0,\alpha_i \geqslant0,i=1,2,...,m\tag{1.11}$
求解出 $\alpha$ 后，求出 $w$ 和 $b$ 即可得到模型 $\begin{aligned}f(x)&=w^Tx+b\\&=\sum_{i=1}^{m}\alpha_iy_ix_{i}^{T}x+b\end{aligned}\tag{1.12}$ 在上述过程中需要满足KKT条件，即要求 $\left\{\begin{array}{c}\alpha_i \geqslant 0; \\ y_if(x_i)-1 \geqslant 0; \\ \alpha_i(y_if(x_i)-1)=0\end{array}\right\tag{1.13}.$ 对于训练样本 $x_i,y_i)$ ，总有 $\alpha_i=0$ 或 $y_if(x_i)=1$ 若 $\alpha_i=0$ ，则该样本不会出现在式(1.12)中，若 $\alpha_i > 0$ ，则必定会有 $y_if(x_i)=1$ ，所对应的样本点位于最大间隔的边界上是一个支持向量
使用SMO算法进行求解，思路如下
先固定 $\alpha_i$ 之外的其他所有参数，然后求 $KaTeX parse error: Undefined control sequence: \alpah at position 1: \̲a̲l̲p̲a̲h̲_i$ 上的极值，由于存在约束条件 $\sum_{i=1}^{m}\alpha_iy_i=0$ ，若固定 $\alpha_i$ 之外的其他变量，则 $\alpha_i$ 可由其他变量导出，于是SMO每次选择两个变量 $\alpha_i$

最低0.47元/天解锁文章

Kevin_0629

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吃瓜教程——第六章

《机器学习》——第六章支持向量机系列文章目录一、间隔与支持向量二、对偶问题一、pandas是什么？二、使用步骤1.引入库2.读入数据总结一、间隔与支持向量给定训练样本集D={(x1,y1),(x2,y2),...,(xm,ym)},yi∈{−1,+1}D=\{(x_1,y_1),(x_2,y
复制链接

扫一扫