第三课 SVM（2）

最新推荐文章于 2023-03-05 23:44:45 发布

约定写代码

最新推荐文章于 2023-03-05 23:44:45 发布

阅读量177

点赞数

分类专栏：机器学习文章标签：支持向量机机器学习人工智能

本文链接：https://blog.csdn.net/flying_all/article/details/120644627

版权

机器学习专栏收录该内容

16 篇文章 2 订阅

订阅专栏

本文详细介绍了支持向量机（SVM）的基本概念，包括超平面、几何间隔与函数间隔，以及如何寻找最大间隔的超平面。在面对线性可分数据集时，SVM通过最大化几何间隔来找到最佳分类边界。当数据线性不可分时，通过引入松弛变量和核函数，SVM能解决非线性问题。核函数是SVM的关键，它将低维非线性问题转换为高维线性问题。最后，文章提到了常用的核函数类型，并预告了使用SMO等算法解决SVM优化问题。

摘要由CSDN通过智能技术生成

1 线性可分的数据集

1.1 超平面

SVM的思想是找到最大间隔的分隔超平面。

在这里插入图片描述

在两个分类中，找到能够一条线，以最好地区分这两个分类。这样如果有了新的点，这条线也能很好地做出分类。
这样的线在高维样本中的时候就叫做超平面。

1.2 几何间隔与函数间隔

图中绿线h1效果不好，h2效果还行，h3效果最好。怎么区分效果好不好？
如果超平面 $w . x + b = 0$ 已经存在，那么样本点距离超平面的距离能够表示预测的确信程度。 $∣ w . x + b ∣$ 能够相对地表示点x距离超平面的距离。而 $w . x + b$ 的符号与标记y的符号是否一致表示分类是否正确。那么就可以用 $y (w . x + b)$ 表示分类的正确性和确信程度，这就是函数间隔。

函数间隔：超平面(w,b)关于样本点( $x_i$ , $y_i$ )样本点的函数间隔为： $\hat{r_i}=y_i(w.x_i+b)$
超平面(w,b)关于数据集T的函数间隔，为所有样本点的函数间隔的最小值： $\hat{r}=min_{i=1,2...N} \hat{r_i}$

函数间隔的问题是如果成比例的改变w和b，例如改为2w+2b，超平面不变，函数间隔却变成了原来的两倍。如果规范化之后就会使得间隔是确定的。这时候函数间隔就变成了几何间隔。
几何间隔：对于给定数据集T和超平面(w,b)，w是超平面的法向量，样本点( $x_i$ , $y_i$ )的几何间隔为： $r_i=y_i\dfrac{w.x+b}{||w||}$
在这里插入图片描述

超平面(w,b)关于数据集T的几何间隔，为所有样本点的几何间隔的最小值： $r=min_{i=1,2...N} {r_i}$

1.3 目标函数

目标函数：最大化几何间隔r： $r=max\dfrac{\hat{r}}{||w||}$
s.t. $y_i(w.x_i+b)>=\hat{r},i=1,2,3...N$
令 $\hat{r}=1$ （这里等于1，没有特别的含义，只是好计算，不影响结果），那么目标函数变为: $max\dfrac{1}{||w||}$ ， $m i n ∣ ∣ w ∣ ∣$ ， $min\dfrac{1}{2}||w||^2$ ，
s.t. $y_i(w.x_i+b)>=\hat{r},i=1,2,3...N$

用拉格朗日乘子法：
$L(w,b,\alpha)=\dfrac{1}{2}||w||^2-\sum_{i=1}^N\alpha_iy_i(w.x_i+b) + \sum_{i=1}^N\alpha_i$

分别对w、b、求导得到： $w=\sum_{i=1}^N\alpha_iy_ix_i$ ， $\sum_{i=1}^N\alpha_iy_i=0$

这样代入上面的式子得到： $L(w,b,\alpha)=\dfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i.x_j)+\sum_{i=1}^N\alpha_i$

1.4 支持向量

在线性可分情况下，训练数据集中的样本点中距离分离超平面最近的样本点称为支持向量。

2 线性近似可分

训练样本中有一些点不满足函数间隔>=1的约束。
解决方法：是对每一个样本引入一个松弛变量 $\epsilon_i>=0$ 使得函数间隔大于等于1。约束条件变为: $y_i(w.x_i+b)>=1-\epsilon_i$
目标函数：min $\dfrac{1}{2}||w||^2+C\sum_{i=1}^{N}\epsilon_i$
s.t. $y_i(w.x_i+b)>1-\epsilon_i, i=1,2,3...N$
$\epsilon_i>=0, i=1,2,3...N$

拉格朗日函数变为： $L(w,b,\alpha,\mu)=\dfrac{1}{2}||w||^2 +C\sum_{i=1}^{N}\epsilon_i -\sum_{i=1}^N\alpha_i(y_i(w.x_i+b) -1 +\epsilon_i ) + \sum_{i=1}^N\mu_i\epsilon_i$

经过求导替换得到： $L(w,b,\alpha,\mu,\epsilon)=-\dfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i.x_j)+\sum_{i=1}^N\alpha_i$

3 非线性支持向量机与核函数

对于线性不可分的问题通过一个变换，将低纬度的非线性问题变换为高纬度的线性问题。通过变换后的线性问题求解原来的非线性问题。
核函数定义：设X是输入空间，H为特征空间，如果存在一个从X到H的映射， $\phi(X):X->H$ ，使得对所有的 $\in X$ ，函数K(x,z)满足条件： $K(x,z)=\phi(x)\phi(z)$ ，则称K(x,z)为核函数， $\phi(x)$ 为映射函数。
核函数技巧的核心是，只需要定义核函数，而不是定义映射函数。因为通常直接计算K(x,z)更容易，而计算 $\phi(x)\phi(z)$ 不容易，计算量还很大。

所以目标函数变为： $L(w,b,\alpha,\mu,\epsilon)=\dfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i.x_j)-\sum_{i=1}^N\alpha_i$

常用核函数为高斯核函数、多项式核函数。

三个类型讨论到后面使用SMO解决问题。

约定写代码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第三课 SVM（2）

1 线性可分的数据集1.1 超平面SVM的思想是找到最大间隔的分隔超平面。在两个分类中，找到能够一条线，以最好地区分这两个分类。这样如果有了新的点，这条线也能很好地做出分类。这样的线在高维样本中的时候就叫做超平面。1.2 几何间隔与函数间隔图中绿线h1效果不好，h2效果还行，h3效果最好。怎么区分效果好不好？如果超平面w.x+b=0w.x+b=0w.x+b=0已经存在，那么样本点距离超平面的距离能够表示预测的确信程度。∣w.x+b∣|w.x+b|∣w.x+b∣能够相对地表示点x距离超平面的距
复制链接

扫一扫

专栏目录