《机器学习实战》（4）支持向量机小结（1）

最新推荐文章于 2022-04-05 20:40:56 发布

置顶 lwpyh

最新推荐文章于 2022-04-05 20:40:56 发布

阅读量714

点赞数 1

文章标签：机器学习支持向量机 SVM python

本文链接：https://blog.csdn.net/lwpyh/article/details/80712157

版权

更新：代码在这里：https://github.com/lwpyh/machinelearning-in-action

机器学习里的一大主流算法就是支持向量机算法，因为该算法数学推导较为复杂，变体较多，而常见的机器学习实际案例往往会默认读者已经了解了支持向量机的基本理论，或者只有理论而没有实例，故要想真正系统的学习支持向量机模型往往并不容易，所以对该模型的解读并不彻底，《机器学习实战》这本书也是如此，所以我在说明书上的SMO算法实例之前，打算将支持向量机的基本算法进行说明，并基于jupyter notebook和sklearn库把基本的支持向量机算法跑一跑，再对支持向量机的核函数进行说明，最后就高斯核函数进行详述，再把SMO算法进行逐行分析。基于工作量的浩大程度，故决定将这一部分的工作分成几个部分来写，今天主要讲一讲SVM算法基本原理及实现。

一.SVM基本算法的推导

对于初学者来说，了解SVM基本算法是一件很困难的事，其一是因为数学推导比较复杂，其二是由于理解起来比较抽象，所以将原理从最早的感知机开始说起，

上图是最基本的感知机模型，所谓感知机模型就是通过选一条边界曲线来将已有数据集中的数据进行正确分类，但是在上图中，能够将数据正确分类的直线有无数条，而机器学习的主要目标并不仅仅是找到一条正确分类的曲线，还要使该分类曲线对于未来的新来的数据有较好的分类能力。这就是所谓的泛化能力，支持向量机的方法是通过找到两个不同类距离最近的点尽可能远来实现这一目标的，换句话说，就是希望所谓的决策边界离红色的类尽可能的远，同时又离蓝色的点尽可能的远，同时能够很好的对两个种类进行分类，这样得到的决策边界如下图所示

这样，就样，模型泛化能力的考量就转化到算法内部去考虑如何使上述条件达到最大，即模型的泛化能力最强，这样问题就转化为了下图的形式

在图中，SVM希望找到一个最优决策边界，使该边界距离两个类别最近的样本最远，这两个最近的样本被称为支持向量（支撑向量），这些样本点到决策边界的距离相等，记为d，而margin=2d，SVM的目标就是最大化margin，把支持向量机的问题转化为一个优化几何问题，只要找到一个决策边界，使该决策边界到支持向量的距离之和最大，就是最优的决策边界。因为这一优化问题完全是由这些支持向量的位置所决定的，所以将其称为支持向量机。

另外，如果决策边界对数据集中的所有数据均能严格分类，则将其称为hard margin SVM,若不能严格分类，则称为soft margin SVM。可能会有人有些疑惑，为什么会有不严格分类情况呢？这是因为决策边界位置虽然只受到支持向量的影响，但是往往还需要保证将所有数据严格分类，为了满足这一要求会使分类曲线的支持向量有所不同，假如存在某些异常值，使分类边界有较大的变化，会使模型的泛化能力大大降低，故需要忽略一些异常值，来大大提高模型的泛化能力，这与logistics回归的正则化的本质相同，都是通过添加一个容忍值来提高模型的泛化能力，防止模型出现过拟合。

为了实现SVM，需要将margin取到最小值，即将d在约束条件下取到最大值，在二维平面上，(x,y)到直线ax+by+c=0的距离公式是

将模型扩展到n维空间，在n维空间上的直线表达式是

所以在n维空间上，点（x,y）到直线的距离就是

再回到SVM问题上，

在上面的SVM问题中，决策边界的表达式就是，而任意在支持向量及之后的点到决策边界的距离就是

正负号是因为将原先点到直线距离分子的绝对值去掉之后由于点的类不同而取到正负，将上式左右均同除以||w||d,则有

这里令=/||w||d,=b/||w||d,则将结果写成这样SVM的边界曲线问题就又可以转化为

这样，为了方便表示，令wT=，b=,将上面的表达式整合在一起，为，即只要满足上述表达式，就是满足SVM条件。故对于任意支持向量x，max margin就转化为了max d,即，而分子最小值为1，所以就相当于，而上式就相当于，所以SVM最优化问题就转化为下面的式子：

这是一个最优化问题，使用拉格朗日对偶法求解，具体这里不再展开了。

二.SVM基本算法的sklearn的实现

下面就以sklearn库在jupyter notebook上实现SVM算法，这里使用iris数据集作为处理的数据集，首先加载数据集

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
iris =datasets.load_iris()
x=iris.data
y=iris.target
x=x[y<2,:2]#取y<2的前两列
y=y[y<2]

这一段代码首先加载iris数据集，分别加载数据和标签，

plt.scatter(x[y==0,0],x[y==0,1],color='red')
plt.scatter(x[y==1,0],x[y==1,1],color='blue')
plt.show

这段代码将数据集显示出来，显示出来的数据集如下所示

SVM算法的数据在处理前需要先进行标准化处理，不然结果误差会很大，下面就是标准化数据的代码

from sklearn.preprocessing import StandardScaler#将数据标准化，便于SVM处理

standardScaler=StandardScaler()
standardScaler.fit(x)#求X的平均值和方差，便于后续操作
X_standard=standardScaler.transform(x)#x标准化处理

数据标准化后，从sklearn库里载入linearSVC 函数，以实现线性的SVC

from sklearn.svm import LinearSVC#载入线性SVM

svc=LinearSVC(C=1e9)#SVM的常数参数是10e9
svc.fit(X_standard,y)#以标准化后的X与y进行拟合

再将决策边界显示出来，下面的代码是决策边界的构造函数

import numpy as np
def plot_decision_boundary(model,axis):#绘制决策边界曲线
    x0,x1=np.meshgrid(
      np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),
      np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1)
    )
    X_new=np.c_[x0.ravel(),x1.ravel()]
    
    y_predict=model.predict(X_new)
    zz=y_predict.reshape(x0.shape)
    
    from matplotlib.colors import ListedColormap
    custom_cmap=ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
    
    plt.contourf(x0,x1,zz,linewidth=5,cmap=custom_cmap)

下面调用决策边界函数实现SVM的边界实现

plot_decision_boundary(svc,axis=[-3,3,-3,3])#以svc函数为依据绘制边界曲线，x与y的范围为-3到3
plt.scatter(X_standard[y==0,0],X_standard[y==0,1],marker='x',label='0')#标签为0 的点用x表示
plt.scatter(X_standard[y==1,0],X_standard[y==1,1],marker='o',label='1')#标签为1 的点用o表示
plt.legend(loc='upper right')#标注的位置在右上
plt.show()

显示的边界图像如下所示

再构造一个新的边界函数，以在体现决策边界的同时实现通过支持向量的平行曲线，新决策边界是

def plot_svc_decision_boundary(model,axis):#该边界曲线同时包含wx+b=+-1的直线
    x0,x1=np.meshgrid(
      np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),
      np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1)
    )
    X_new=np.c_[x0.ravel(),x1.ravel()]
    
    y_predict=model.predict(X_new)
    zz=y_predict.reshape(x0.shape)
    
    from matplotlib.colors import ListedColormap
    custom_cmap=ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
    
    plt.contourf(x0,x1,zz,linewidth=5,cmap=custom_cmap)
    
    w=model.coef_[0]
    b=model.intercept_[0]
    #w0*x0+w1*x1+b=0
    #x1=-w0/w1*x0-b/w1
    plot_x=np.linspace(axis[0],axis[1],200)
    up_y=-w[0]/w[1]*plot_x-b/w[1]+1/w[1]
    down_y=-w[0]/w[1]*plot_x-b/w[1]-1/w[1]
    
    up_index=(up_y>=axis[2])&(up_y<=axis[3])
    down_index=(down_y>=axis[2])&(down_y<=axis[3])
    plt.plot(plot_x[up_index],up_y[up_index],color='black')
    plt.plot(plot_x[down_index],down_y[down_index],color='black')

再通过新边界函数实现SVM的显示

plot_svc_decision_boundary(svc,axis=[-3,3,-3,3])
plt.scatter(X_standard[y==0,0],X_standard[y==0,1])
plt.scatter(X_standard[y==1,0],X_standard[y==1,1])
plt.show()

显示的决策边界与平行曲线是