二十一.支持向量机(SVM)原理和sklearn实现

最新推荐文章于 2024-08-07 09:41:39 发布

stackooooover

最新推荐文章于 2024-08-07 09:41:39 发布

阅读量429

点赞数

分类专栏：机器学习理论基础机器学习实战

本文链接：https://blog.csdn.net/weixin_36128607/article/details/118542986

版权

机器学习理论基础同时被 2 个专栏收录

39 篇文章 8 订阅

订阅专栏

机器学习实战

31 篇文章 4 订阅

订阅专栏

1.支持向量机和感知机

感知机：通过误分类点距离之和最小，寻找一个分类超平面，将不同类别的数据分隔在超平面两侧，这样的超平面有无数个。
支持向量机：最大化几何间隔寻找分类超平面，通俗点说就是最大化数据集中离超平面最近的点的距离，这样的超平面只有一个。

2.线性可分SVM之硬间隔最大化

(1)函数间隔和几何间隔

定义样本点 $(\mathbf{x}^{i},y^{i})$ 关于超平面 $(\mathbf{w},b)$ 的函数间隔为：
$\gamma _{i}^{'}=y^{i}(\textbf{w}^{T}\mathbf{x}^{i}+b)$
函数间隔的值只能代表正确性和确信度，不能量化的代表准确度，因为当超平面的参数 $\mathbf{w},b$ 成比例增加或减少时，函数间隔值改变，但是超平面不变。
因此，将函数间隔加上法向量 $\mathbf{w}$ 的约束，可以得到几何间隔，几何间隔表示了点到超平面的带符号距离：
$\gamma _{i}=\frac{\gamma _{i}^{'}}{||\mathbf{w}||_{2}}=\frac{y^{i}(\textbf{w}^{T}\mathbf{x}^{i}+b)}{||\mathbf{w}||_{2}}$
以上是样本点 $(\mathbf{x}^{i},y^{i})$ 关于超平面 $(\mathbf{w},b)$ 的函数间隔和集合间隔。
数据集关于超平面的函数间隔和几何间隔，是所有样本中的最小值：
$\gamma ^{'}=\min_{i=1,2,3,..,m}\gamma _{i}^{'}\\ \gamma =\min_{i=1,2,3,..,m}\gamma _{i}$

(2)目标函数推导

SVM的目的是找到这样一个超平面，使距离超平面最近的点最远，即最大化超平面 $(\mathbf{w},b)$ 关于所有样本的几何间隔，用数学表示为：
$\max_{\mathbf{w}}\gamma =\frac{\gamma ^{'}}{||\mathbf{w}||_{2}}\\ s.t.\frac{y^{i}(\textbf{w}^{T}\mathbf{x}^{i}+b)}{||\mathbf{w}||_{2}}\geqslant \frac{\gamma ^{'}}{||\mathbf{w}||_{2}}$
约束条件不等号两遍同乘 $||\mathbf{w}||_{2}$ 得：
$\max_{\mathbf{w}}\gamma =\frac{\gamma ^{'}}{||\mathbf{w}||_{2}}\\ s.t.y^{i}(\textbf{w}^{T}\mathbf{x}^{i}+b)\geqslant \gamma ^{'}$
当 $\mathbf{w},b$ 等比例改变时， $\gamma ^{'}$ 的值会变，但是超平面不会变，因此，固定 $\gamma ^{'}$ 为 $1$ ，则上述条件变为：
$\max_{\mathbf{w}}\frac{1}{||\mathbf{w}||_{2}}\\ s.t.y^{i}(\textbf{w}^{T}\mathbf{x}^{i}+b)-1\geqslant 0$
极大化 $\frac{1}{||\mathbf{w}||_{2}}$ 等价于极小化 $||\mathbf{w}||_{2}^{2}$ ，最终目标函数变为：
$\min_{\mathbf{w}}\frac{1}{2}||\mathbf{w}||_{2}^{2}\\ s.t.y^{i}(\textbf{w}^{T}\mathbf{x}^{i}+b)-1\geqslant 0$

(3)目标函数优化

有约束的最优化问题，使用拉格朗日乘子法。
首先，构造拉格朗日函数：
$L(\mathbf{w},b,\alpha )=\frac{1}{2}||\mathbf{w}||_{2}^{2}-\sum_{i=1}^{m}\alpha ^{i}[y^{i}(\textbf{w}^{T}\mathbf{x}^{i}+b)-1]$
其中， $\alpha ^{i}\geqslant0$ 。
有上式可知，原始问题为：
$\min_{\mathbf{w},b}\max_{\alpha ^{i}\geqslant 0}L(\mathbf{w},b,\alpha )$
原始问题的对偶问题为：
$\max_{\alpha ^{i}\geqslant 0}\min_{\mathbf{w},b}L(\mathbf{w},b,\alpha )$
原始问题转化成了对偶问题，首先求内层极小值:
$\min_{\mathbf{w},b}L(\mathbf{w},b,\alpha )$
损失函数首先对 $\mathbf{w},b$ 分别求导：
$\frac{\partial L}{\partial \mathbf{w}}=\mathbf{w}-\sum_{i=1}^{m}\alpha ^{i}y^{i}\mathbf{x}^{i}=0\Rightarrow \mathbf{w}=\sum_{i=1}^{m}\alpha ^{i}y^{i}\mathbf{x}^{i}\\ \frac{\partial L}{\partial b}=-\sum _{i=1}^{m}\alpha ^{i}y^{i}=0\Rightarrow \sum _{i=1}^{m}\alpha ^{i}y^{i}=0$
将上两式带入原式得：
$\begin{aligned} \min_{\mathbf{w},b}L(\mathbf{w},b,\alpha ) &= \frac{1}{2}\mathbf{w^{T}w}-\sum_{i=1}^{m}\alpha ^{i}y^{i}\mathbf{w}^{T}\mathbf{x}^{i}-\sum_{i=1}^{m}\alpha ^{i}y^{i}b+\sum_{i=1}^{m}\alpha ^{i}\\ &= \frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha ^{i}\alpha ^{j}y^{i}y^{j}(\mathbf{x^{i}})^{T}\mathbf{x}^{j}-\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha ^{i}\alpha ^{j}y^{i}y^{j}(\mathbf{x^{i}})^{T}\mathbf{x}^{j}+\sum_{i=1}^{m}\alpha ^{i}\\ &=-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha ^{i}\alpha ^{j}y^{i}y^{j}(\mathbf{x^{i}})^{T}\mathbf{x}^{j}+\sum_{i=1}^{m}\alpha \end{aligned}$
更新目标函数：
$\max_{\alpha ^{i}}-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha ^{i}\alpha ^{j}y^{i}y^{j}(\mathbf{x^{i}})^{T}\mathbf{x}^{j}+\sum_{i=1}^{m}\alpha \\ s.t.\sum_{i=1}^{m}\alpha ^{i}y^{i}=0\\ \alpha ^{i}\geqslant 0$

(4)目标函数求解

a.求 $\mathbf{w}$
上述约束优化问题中，只有参数 $\alpha$ 未知，可以用SMO算法求出 $\alpha$ 的值 $\alpha ^{i*}$ ，进而可求得：
$\mathbf{w}^{*}=\sum_{i=1}^{m}\alpha ^{i*}y^{i}\mathbf{x}^{i}$
b.求 $b$
通过以下两个公式：
$y^{i}((\mathbf{w}^{*})^{T}\mathbf{x}^{i}+b)-1= 0\\ \alpha ^{i*}\geqslant 0$
可以找到所有的支持向量(距离超平面最近的点)，计算出每个支持向量的偏置：
$b^{i*}=y^{i}-(\mathbf{w}^{*})^{T}\mathbf{x}^{i}(y^{i}为正负1)$
取平均值作为超平面的偏置：
$b^{*}=\frac{1}{|D|}\sum_{\mathbf{x}^{i}\in D}b^{i*}$
其中， $D$ 为支持向量的集合， $∣ D ∣$ 为支持向量的数量。
最终，可得分类超平面：
$(\mathbf{w}^{i*})^{T}\mathbf{x}+b^{*}=0$
分类决策函数：
$f(\mathbf{x})=sign[(\mathbf{w}^{i*})^{T}\mathbf{x}+b^{*}]$

(5)硬间隔最大化的支持向量

在线性可分情况下，与分离超平面最近的点称为支持向量。
根据KKT条件中的松弛互补条件：
$\alpha ^{i}[y^{i}(\mathbf{w}^{T}\mathbf{x}^{i}+b)-1]= 0$
当 $\alpha ^{i}>0$ 时，可行解落在约束边界上，且：
$y^{i}(\mathbf{w}^{T}\mathbf{x}^{i}+b)-1= 0$
可以以此找出支持向量。

2.线性SVM之软间隔最大化

(1)软间隔最大化

有时候，数据集是线性可分的，但是由于异常点的存在，导致超平面线性不可分，或者严重影响了模型的预测效果。这时候，可以使SVM对数据集中的每一个样本 $(\mathbf{x}^{i},y^{i})$ 引入一个松弛变量 $\xi ^{i}\geqslant 0$ ，使间隔可以通过松弛变量调整大小，引入松弛变量的几何间隔被称为软间隔，数学表示为：
$y^{i}(\mathbf{w}^{T}\mathbf{x}^{i}+b)\geqslant 1-\xi ^{i}$
软间隔最大化用数学表示为：
$\min_{\mathbf{w}}\frac{1}{2}||\mathbf{w}||_{2}^{2}+C\sum_{i=1}^{m}\xi ^{i}\\ s.t.y^{i}(\mathbf{w^{T}x^{i}}+b)\geqslant 1-\xi ^{i}\\ \xi ^{i}\geqslant 0$
其中， $C$ 为惩罚系数，它的值越大对误分类的惩罚越大。

(2)目标函数优化

构造拉格朗日函数：
$L(\mathbf{w},b,\xi ,\alpha ,\mu )=\frac{1}{2}||\mathbf{w}||_{2}^{2}+C\sum_{i=1}^{m}\xi ^{i}-\sum_{i=1}^{m}\alpha ^{i}[y^{i}(\mathbf{w^{T}x^{i}}+b)- 1+\xi ^{i}]-\sum_{i=1}^{m}\mu^{i}\xi ^{i}$
原始问题：
$\min_{\mathbf{w},b,\xi }\max_{\alpha \geqslant 0,\mu \geqslant 0} L(\mathbf{w},b,\xi ,\alpha ,\mu )$
对偶问题：
$\max_{\alpha \geqslant 0,\mu \geqslant 0} \min_{\mathbf{w},b,\xi }L(\mathbf{w},b,\xi ,\alpha ,\mu )$
求内层极小值：
$\begin{aligned} \frac{\partial L}{\partial \mathbf{w}} &=\mathbf{w}-\sum_{i=1}^{m} \alpha ^{i}y^{i}\mathbf{x}^{i}\Rightarrow \mathbf{w}=\sum_{i=1}^{m} \alpha ^{i}y^{i}\mathbf{x}^{i}\\ \frac{\partial L}{\partial b} &= -\sum_{i=1}^{m}\alpha ^{i}y^{i}=0\Rightarrow \sum_{i=1}^{m}\alpha ^{i}y^{i}=0\\ \frac{\partial L}{\partial \xi } &=C-\alpha ^{i}-\mu ^{i}=0 \end{aligned}$
将上三式带入 $L$ 得：
$\begin{aligned} L(\mathbf{w},b,\xi ,\alpha ,\mu )&=\frac{1}{2}||\mathbf{w}||_{2}^{2}+C\sum_{i=1}^{m}\xi ^{i}-\sum_{i=1}^{m}\alpha ^{i}[y^{i}(\mathbf{w^{T}x^{i}}+b)- 1+\xi ^{i}]-\sum_{i=1}^{m}\mu^{i}\xi ^{i}\\ &= \frac{1}{2}||\mathbf{w}||_{2}^{2}+(C-\alpha ^{i}-\mu ^{i})\sum_{i=1}^{m}\xi ^{i}-\sum_{i=1}^{m}\alpha ^{i}[y^{i}(\mathbf{w^{T}x^{i}}+b)- 1]\\ &=\frac{1}{2}\sum _{i=1}^{m}\sum_{j=1}^{m}\alpha ^{i}\alpha ^{j}y^{i}y^{j}\mathbf{(x^{i})^{T}x^{j}}-\frac{1}{2}\sum _{i=1}^{m}\sum_{j=1}^{m}\alpha ^{i}\alpha ^{j}y^{i}y^{j}\mathbf{(x^{i})^{T}x^{j}}-\sum_{i=1}^{m}\alpha ^{i}y^{i}b+\sum_{i=1}^{m}\alpha ^{i}\\ &=-\frac{1}{2}\sum _{i=1}^{m}\sum_{j=1}^{m}\alpha ^{i}\alpha ^{j}y^{i}y^{j}\mathbf{(x^{i})^{T}x^{j}}+\sum_{i=1}^{m}\alpha ^{i} \end{aligned}$
问题优化为：
$\max_{\alpha }-\frac{1}{2}\sum _{i=1}^{m}\sum_{j=1}^{m}\alpha ^{i}\alpha ^{j}y^{i}y^{j}\mathbf{(x^{i})^{T}x^{j}}+\sum_{i=1}^{m}\alpha ^{i}\\ s.t. \sum_{i=1}^{m}\alpha ^{i}y^{i}=0\\ C-\alpha ^{i}-\mu ^{i}=0\\ \alpha ^{i},\mu ^{i}\geqslant 0$
最优化取反，约束条件后两项合并，问题进一步优化为：
$\min_{\alpha }\frac{1}{2}\sum _{i=1}^{m}\sum_{j=1}^{m}\alpha ^{i}\alpha ^{j}y^{i}y^{j}\mathbf{(x^{i})^{T}x^{j}}-\sum_{i=1}^{m}\alpha ^{i}\\ s.t. \sum_{i=1}^{m}\alpha ^{i}y^{i}=0\\ 0\leqslant \alpha ^{i}\leqslant C$

(3)目标函数求解

同线性可分SVM硬间隔最大化的求解方法。

(4)软间隔最大化的支持向量

软间隔最大化的支持向量的间隔距离为：
$\frac{\xi }{||\mathbf{w}||_{2}^{2}}$
根据KKT条件中的松弛互补条例：
$\alpha ^{i}[y^{i}(\mathbf{w}^{T}\mathbf{x}^{i}+b)-1]= 0$
支持向量的寻找分为以下几种情况：
A.如果 $\alpha=0$ ，那么：
$y^{i}(\mathbf{w}^{T}\mathbf{x}^{i}+b)-1\geqslant 0$
样本在间隔边界或被正确分类。
B.如果 $0<\alpha<C$ ,则：
$y^{i}(\mathbf{w}^{T}\mathbf{x}^{i}+b)-1= 0\\\xi ^{i}=0$
样本在间隔边界。
C.如果 $\alpha =C$ ，则此样本为异常点，需要分情况讨论：
a.当 $0<\xi <1$ ，异常点被正确分类，但是位于超平面和自己类别的间隔边界之间。
b.当 $\xi =1$ ，异常点在分离超平面上，无法被正确分类。
c.当 $\xi >1$ ，异常点在超平面的另一侧，也就是说，这个点不能被正常分类。

(5)合页损失函数

线性SVM的另一种解释为：
$\min_{\mathbf{w},b}[1-y^{i}(\mathbf{w^{T}x^{i}}+b)]+\lambda ||\mathbf{w}||_{2}^{2}$
令:
$L=[z]_{+}=[1-y^{i}(\mathbf{w^{T}x^{i}}+b)]_{+}$
其中：
$[z]_{+}=\left\{\begin{matrix} z,z>0\\ 0,z\leqslant 0 \end{matrix}\right.$
函数 $L$ 被称为合页损失函数，它表示如果样本被正确分类且间隔距离大于1,损失为0；否则，损失为：
$1-y^{i}(\mathbf{w^{T}x^{i}}+b)$

3.非线性SVM之核函数

(1)从低维到高维

考虑只含两个变量的多项式：
$h(x_{1},x_{2})=\theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+\theta _{3}x_{1}^{2}+\theta _{4}x_{2}^{2}+\theta _{5}x_{1}x_{2}$
该多项式在二维空间不可分，但是，如果令：
$x_{3}=_{1}^{2},x_{4}=x_{2}^{2},x_{5}=x_{1}x_{2}$
则不等式变为：
$h(x)=\theta _{1}x_{1}+\theta _{2}x_{2}+\theta _{3}x_{3}+\theta _{4}x_{4}+\theta _{5}x_{5}$
此时，多项式在五维空间线性可分。

(2)核函数的引入

当数据在低维不可分时，SVM通过核函数数将数据映射到高维，使数据在高维可分，此时，约束优化问题变为：
$\min_{\alpha }\frac{1}{2}\sum _{i=1}^{m}\sum_{j=1}^{m}\alpha ^{i}\alpha ^{j}y^{i}y^{j}K(\mathbf{x}^{i},\mathbf{x}^{j})\sum_{i=1}^{m}\alpha ^{i}\\ s.t. \sum_{i=1}^{m}\alpha ^{i}y^{i}=0\\ 0\leqslant \alpha ^{i}\leqslant C$
其中， $K(\mathbf{x}^{i},\mathbf{x}^{j})=\Phi(\mathbf{x}^{i})\cdot \Phi(\mathbf{x}^{j})$ 为核函数。

(3)常用核函数

a.线性核函数
$K(\mathbf{x}^{i},\mathbf{x}^{j})=(\mathbf{x}^{i})^{T}\mathbf{x}^{j}$
本质为线性SVM，可通过核函数将其归类到此。
b.多项式核函数
$K(\mathbf{x}^{i},\mathbf{x}^{j})=[\alpha (\mathbf{x}^{i})^{T}\mathbf{x}^{j}+\beta ]^{\gamma }$
其中， $\alpha ,\beta ,\gamma ,$ 需要调参。
多项式核函数是最常用的线性不可分核函数之一。
c.高斯核函数
$K(\mathbf{x}^{i},\mathbf{x}^{j})=\exp[-\gamma ||\mathbf{x}^{i}-\mathbf{x}^{j}||^{2}]$
d.tanh核函数
$K(\mathbf{x}^{i},\mathbf{x}^{j})=\tanh(\alpha (\mathbf{x}^{i})^{T}\mathbf{x}^{j}+\gamma )$

(4)SVM算法流程

输入： $m$ 个样本，每个样本有 $n$ 维特征和一个二类别标签 $y$ 。
输出：样本的预测值。
a.选择适当的核函数 $K(\mathbf{x}^{i},\mathbf{x}^{j})$ 和惩罚系数 $C > 0$ ，构造约束优化问题：
$\min_{\alpha }\frac{1}{2}\sum _{i=1}^{m}\sum_{j=1}^{m}\alpha ^{i}\alpha ^{j}y^{i}y^{j}K(\mathbf{x}^{i},\mathbf{x}^{j})\sum_{i=1}^{m}\alpha ^{i}\\ s.t. \sum_{i=1}^{m}\alpha ^{i}y^{i}=0\\ 0\leqslant \alpha ^{i}\leqslant C$
b.用SMO算法得到 $\alpha$ 的值 $\alpha ^{*}$ 。
c.求解系数 $\mathbf{w}$ ：
$\mathbf{w}^{*}=\sum_{i=1}^{m}\alpha ^{i*}y^{i}\Phi (\mathbf{x}^{i})$
d.通过 $0<\alpha ^{i}<0$ 找到所有的支持向量，通过 $y^{i}[(\mathbf{w}^{*})^{T}\Phi (\mathbf{x}^{i})+b]=1$ 计算出所有的支持向量的偏置：
$b^{i*}=y^{i}-(\mathbf{w}^{*})^{T}\Phi (\mathbf{x}^{i})$
去平均值作为超平面的偏置：
$b^{*}=\frac{1}{|D|}\sum_{x^{i}\in D}b^{i*}$
e.最终，得分类超平面：
$(\mathbf{w}^{*})^{T}\mathbf{x}+b^{*}=0$
分类决策函数：
$f(x)=sign[(\mathbf{w}^{*})^{T}\mathbf{x}+b^{*}]$

4.SOM算法简介

SMO中每次优化两个变量，将除这两个变量之外的变量都视为常量。

5.SVM线性支持回归

SVM不仅可用来分类，也可以用来进行回归。

6.sklearn实现SVM

(1)数据预处理

导入数据集，划分数据集，数据标准化

from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
digits = load_digits()
x,y=digits.data,digits.target
std = StandardScaler()
x = std.fit_transform(x)
x_train,x_test,y_train,y_test = train_test_split(x,y)
print(x_train.shape,x_test.shape)

输出：

(1347, 64) (450, 64)

(2)预测和评价

from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
model = SVC(kernel='linear')
model.fit(x_train,y_train)
y_pred=model.predict(x_test)
print(accuracy_score(y_pred,y_test))

输出：