支持向量机SVM的推导

最新推荐文章于 2024-05-18 10:00:00 发布

CWJ的博客

最新推荐文章于 2024-05-18 10:00:00 发布

阅读量419

点赞数

分类专栏：机器学习文章标签：机器学习支持向量机 svm

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/chenweijiSun/article/details/106529440

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1、什么是支持向量机？

支持向量机是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器。
支持向量机的学习策略就是间隔最大化。
支持向量机学习方法包含的模型有：线性可分支持向量机（硬间隔支持向量机）、线性支持向量机（软间隔支持向量机）、非线性支持向量机（核技巧）。
序列最小最优化算法（SMO) 的求解

SVM算法的推导非常重要，面试也是常考的，一定要亲自从头到尾手推一遍。
只需要推导线性可分支持向量机学习算法就可以了，需要输出分离超平面和分类决策函数。

2、线性可分支持向量机

训练数据集
$\begin{aligned} \\& T = \left\{ \left( \mathbf{x}_{1}, y_{1} \right), \left( \mathbf{x}_{2}, y_{2} \right), \cdots, \left( \mathbf{x}_{N}, y_{N} \right) \right\} \end{aligned}$
其中， $\mathbf{x}_{i} \in \mathcal{X} = \mathbb{R}^{n}, y_{i} \in \mathcal{Y} = \left\{ +1, -1 \right\}, i = 1, 2, \cdots, N$ ， $\mathbf{x}_{i}$ 为第 $i$ 个特征向量（实例）， $y_{i}$ 为第 $\mathbf{x}_{i}$ 的类标记，当 $y_{i}=+1$ 时，称 $\mathbf{x}_{i}$ 为正例；当 $y_{i}= -1$ 时，称 $\mathbf{x}_{i}$ 为负例， $\left( \mathbf{x}_{i}, y_{i} \right)$ 称为样本点。

线性可分支持向量机：给定线性可分训练数据集，通过间隔最大化或等价地求解相应地凸二次规划问题学习得到分离超平面，在样本空间中，划分超平面可用 $w^{\mathsf{T}}x+b=0$ 表示，记为 $(w, b)$ 。
以及相应的分类决策函数
$\begin{aligned} \\& f \left( x \right) = sign \left( w^\mathsf{T} \cdot x + b\right) \end{aligned}$
称为线型可分支持向量机。其中 $w^\mathsf{T}$ 和 $b$ 为感知机模型参数， $w^\mathsf{T} \in \mathbb{R}^{n}$ 叫做权值或权值向量， $\in \mathbb{R}$ 叫做偏置， $w^\mathsf{T} \cdot x$ 表示 $w^\mathsf{T}$ 和 $x$ 的内积。 $s i g n$ 是符号函数。

即超平面 $(w, b)$ 关于样本点 $x_i,y_i)$ 到划分超平面的函数间隔为 $\hat{\gamma}_i=y_i\left(w\cdot x_i+b\right)$ ，几何间隔为 $\gamma_i=y_i\left(\frac{w}{\|w \|}\cdot x_i + \frac{b}{\|w \|} \right)$ ，简写为： $\gamma = \frac {\hat{\gamma}} {\|w \|}$

支持向量机的基本想法就是求解能够正确划分训练数据集并且几何间隔最大的分离超平面，数学公式表达为：

$\begin{aligned} &\max \limits_{w,b} \quad \gamma \\ &\ \text{s.t.} \ \ \quad y_i\left(\frac {w}{\|w \|}\cdot x_i +\frac {b}{\|w \|} \right) \geqslant \gamma\text{,}\quad i=1,2,\cdots,N \end{aligned}$

即我们希望最大化超平面 $(w, b)$ 关于训练数据集的几何间隔 $\gamma$ ，约束条件表示的是超平面 $(w, b)$ 关于每个训练样本点的几何间隔至少是 $\gamma$ ,根据上面的函数间隔公式和几何间隔公式的关系得出以下公式：
$\begin{aligned} &\max \limits_{w,b} \quad \frac{\hat{\gamma}} {\|w \|}\\ & \ \text{s.t.} \ \ \quad y_i\left(w\cdot x_i +b \right) \geqslant \hat{\gamma} \text{,}\quad i=1,2,\cdots,N \end{aligned}$

假设将w和b按比例改变为 $\lambda$ w和 $\lambda$ b，这时的函数间隔为 $\lambda\hat{\gamma}$ ，函数间隔的这一改变对上面最优化问题的不等式约束公式没有影响，对目标函数的优化也没有影响，那么就可以把 $\hat{\gamma}=1$ 方便推导，即：
$\begin{aligned} &\max \limits_{w,b} \quad \frac{1} {\|w \|}\\ & \ \text{s.t.} \ \ \quad y_i\left(w\cdot x_i +b \right) \geqslant 1 \text{,}\quad i=1,2,\cdots,N \end{aligned}$

注意到最大化 $\frac {1}{\|w \|}$ 和最小化 $\frac {1}{2}\|w \|^2$ （取平方是为了后面方便求导）是等价的，于是就得到下面的线性可分支持向量机最优化问题的公式：
$\begin{aligned} &\min \limits_{w,b} \quad \frac{1}{2} \|w \|^2\\ &\ \text{s.t.} \ \ \quad y_i\left(w\cdot x_i +b \right) -1 \geqslant 0 \text{,}\quad i=1,2,\cdots,N \end{aligned}$
通过上面公式，（硬间隔）支持向量就是以训练数据集 $T$ 的样本点中与分离超平面距离最近的样本点的实例，即使约束条件等号成立的样本点
$y_i\left(w\cdot x_i +b \right) -1 = 0$
对 $y_{i} = +1$ 的正例点，支持向量在超平面
$\begin{aligned} \\ & H_{1}:w \cdot x + b = 1 \end{aligned}$
对 $y_{i} = -1$ 的正例点，支持向量在超平面
$\begin{aligned} \\ & H_{1}:w \cdot x + b = -1 \end{aligned}$
$H_{1}$ 和 $H_{2}$ 称为间隔边界。
$H_{1}$ 和 $H_{2}$ 之间的距离称为间隔，且 $|H_{1}H_{2}| = \dfrac{1}{\| w \|} + \dfrac{1}{\| w \|} = \dfrac{2}{\| w \|}$ 。

为了方便求解最优化问题，可以应用拉格朗日对偶性，求解他的对偶问题从而得到原始问题的最优解，这就是线性可分支持向量机的对偶算法，这样做的优点，一是对偶问题往往更容易求解；二是自然引入核函数，进而推广到非线性分类问题，首先先看看拉格朗日函数公式为：

首先假设 $f(x),c_i(x),h_j(x)$ 是定义在 $\mathbf{R}^n$ 上的连续可微函数，考虑约束最优化问题，即：
$\begin{aligned}&\min \limits_{x \in \mathbf{R}^n} \quad f(x) \\ &\ \text{s.t.} \ \ \quad c_i(x) \leqslant 0 , \ i=1,2,\cdots,k \\ &\ \ \ \ \quad \quad h_i(x)=0,\ j=1,2,\cdots,l \end{aligned}$

称次约束最优化问题为原始最优化问题或原始问题，最终引进广义拉格朗日函数，即：
${L}\left(x,\alpha,\beta\right)= f(x) +\sum_{i=1}^{k} \alpha_i c_i (x) +\sum_{j=1}^{l} \beta_j h_j(x)$

这里， $x=(x^{(1)},x^{(2)},\cdots,x^{(n)})^T\in \mathbf{R}^n$ , $\alpha_i , \beta_i$ 是拉格朗日乘子， $\alpha_i \geqslant 0$

通过上面的拉格朗日函数例子，构建求解线性可分支持向量机的最优化问题，对每一个不等式约束引进拉格朗日乘子 $\alpha \geqslant 0 ,i=1,2,\cdots,N$ ，如下：
${L}(w,b,\alpha) = \frac {1}{2} \|w \|^2 - \sum_{i=1}^{N}\alpha_i y_i (w\cdot x_i + b) + \sum_{i=1}^{N} \alpha_i$

根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题，即：
$\max \limits_{\alpha} \min \limits_{w,b} {L}(w,b,\alpha)$
为了得到对偶问题的解，需要先求 ${L}(w,b,\alpha)$ 对 $w, b$ 的极小，再求对 $\alpha$ 的极大

1、求 $\min \limits_{w,b} {L}(w,b,\alpha)$ ，将拉格朗日函数 ${L}(w,b,\alpha)$ 分别对 $w, b$ 求偏导数并令其等于0
$\nabla_w {L}(w,b,\alpha)=w-\sum_{i=1}^{N}\alpha_i y_i x_i =0$
$\nabla_b {L}(w,b,\alpha)=-\sum_{i=1}^{N}\alpha_i y_i=0$
得
$\begin{aligned}w &= \sum_{i=1}^{N} \alpha_i y_i x_i \\ 0&=\sum_{i=1}^{N} \alpha_i y_i \end{aligned}$

将其结果带入公式得：
$\begin{aligned}{L}(w,b,\alpha)&=\frac {1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \cdot x_j ) - \sum_{i=1}^{N} \alpha_i y_j \left(\left(\sum_{j=1}^{N} \alpha_j y_j x_j \right)\cdot x_i +b \right) +\sum_{i=1}^{N} \alpha_i \\ &=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) + \sum_{i=1}^{N}\alpha_i \end{aligned}$
即
$\begin{aligned}\min \limits_{w,b} \ {L}(w,b,\alpha)&=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) + \sum_{i=1}^{N}\alpha_i \end{aligned}$

求 $\min \limits_{w,b} \ {L}(w,b,\alpha)$ 对 $\alpha$ 的极大，即是对偶问题：
$\begin{aligned} &\max \limits_{\alpha} \ \ -\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) + \sum_{i=1}^{N}\alpha_i \\ & \ \text{s.t.} \quad \sum_{i=1}^N \alpha_i y_i=0 \quad \alpha_i \geqslant 0 , \ i=1,2,\cdots,N\end{aligned}$

将上面的目标函数由求极大转换成求极小，就得到下面与之等价的对偶最优化问题：
$\begin{aligned} &\min \limits_{\alpha} \ \ \ \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) - \sum_{i=1}^{N}\alpha_i \\ & \ \text{s.t.} \quad \sum_{i=1}^N \alpha_i y_i=0 \quad \alpha_i \geqslant 0 , \ i=1,2,\cdots,N\end{aligned}$

由于w的值为：
$\sum_{i=1}^{N} \alpha_i y_i x_i$
最终得到模型：
$\begin{aligned} f(x)&=w^T x + b \\ &=\sum_{i=1}^{N} \alpha_i y_i x_i^T x +b \end{aligned}$

$\alpha_i$ 是拉格朗日乘子，它恰恰对应着训练样本 $x_i,y_i)$ ，又因为有 $y_i\left(w\cdot x_i +b \right) -1 \geqslant 0 \text{,}\quad i=1,2,\cdots,N$ 不等式约束，因此上述过程需要满足KKT条件，即要求
$\left\{ \begin{aligned} \alpha_i \geqslant 0 \\ y_i f(x_i) -1 \geqslant 0 \\ \alpha_i(y_i f(x_i) -1) = 0\end{aligned} \right.$

总结：对于任意训练样本 $x_i,y_i)$ ，总有 $\alpha_i = 0$ 或者 $y_i f(x_i) =1$ ，也就是说最终与模型有关的的样本点都位于最大间隔的边界上，我们称之为支持向量，其余的样本点与模型无关

3、线性支持向量机

线性支持向量机（软间隔支持向量机）：给定线性不可分训练数据集，通过求解凸二次规划问题
$\begin{aligned} \\ & \min_{\mathbf{w},b,\xi} \quad \dfrac{1}{2} \| \mathbf{w} \|^{2} + C \sum_{i=1}^{N} \xi_{i} \\ & \ s.t. \quad y_{i} \left( \mathbf{w} \cdot \mathbf{x}_{i} + b \right) \geq 1 - \xi_{i} \\ & \ \xi_{i} \geq 0, \quad i=1,2, \cdots, N \end{aligned}$
学习得到分离超平面为
$\begin{aligned} \\& \mathbf{w}^\mathsf{T} \cdot \mathbf{x} + b = 0 \end{aligned}$
以及相应的分类决策函数
$\begin{aligned} \\& f \left( \mathbf{x} \right) = sign \left( \mathbf{w}^\mathsf{T} \cdot \mathbf{x} + b \right) \end{aligned}$
称为线型支持向量机。

最优化问题的求解：

引入拉格朗日乘子 $\alpha_{i} \geq 0, \mu_{i} \geq 0, i = 1, 2, \cdots, N$ 构建拉格朗日函数
$\begin{aligned} \\ L \left( \mathbf{w}, b, \xi, \alpha, \mu \right) &= \dfrac{1}{2} \| \mathbf{w} \|^{2} + C \sum_{i=1}^{N} \xi_{i} + \sum_{i=1}^{N} \alpha_{i} \left[- y_{i} \left( \mathbf{w} \cdot \mathbf{x}_{i} + b \right) + 1 - \xi_{i} \right] + \sum_{i=1}^{N} \mu_{i} \left( -\xi_{i} \right) \\ & = \dfrac{1}{2} \| \mathbf{w} \|^{2} + C \sum_{i=1}^{N} \xi_{i} - \sum_{i=1}^{N} \alpha_{i} \left[ y_{i} \left( \mathbf{w} \cdot \mathbf{x}_{i} + b \right) -1 + \xi_{i} \right] - \sum_{i=1}^{N} \mu_{i} \xi_{i} \end{aligned}$
其中， $\alpha = \left( \alpha_{1}, \alpha_{2}, \cdots, \alpha_{N} \right)^\mathsf{T}$ 以及 $\mu = \left( \mu_{1}, \mu_{2}, \cdots, \mu_{N} \right)^\mathsf{T}$ 为拉格朗日乘子向量。
求 $\min_{\mathbf{w},b}L \left( \mathbf{w}, b, \xi, \alpha, \mu \right)$ :
令
$\begin{aligned} \\ & \nabla_{\mathbf{w}} L \left( \mathbf{w}, b, \xi, \alpha, \mu \right) = \mathbf{w} - \sum_{i=1}^{N} \alpha_{i} y_{i} \mathbf{x}_{i} = 0 \\ & \nabla_{b} L \left( \mathbf{w}, b, \xi, \alpha, \mu \right) = -\sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \\ & \nabla_{\xi_{i}} L \left( \mathbf{w}, b, \xi, \alpha, \mu \right) = C - \alpha_{i} - \mu_{i} = 0 \end{aligned}$
得
$\begin{aligned} \\ & \mathbf{w} ＝ \sum_{i=1}^{N} \alpha_{i} y_{i} \mathbf{x}_{i} \\ & \sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \\ & C - \alpha_{i} - \mu_{i} = 0\end{aligned}$
代入拉格朗日函数，得
$\begin{aligned} \\ L \left( \mathbf{w}, b, \xi, \alpha, \mu \right) &= \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( \mathbf{x}_{i} \cdot \mathbf{x}_{j} \right) + C \sum_{i=1}^{N} \xi_{i} - \sum_{i=1}^{N} \alpha_{i} y_{i} \left[ \left( \sum_{j=1}^{N} \alpha_{j} y_{j} x_{j} \right) \cdot \mathbf{x}_{i} + b \right] + \sum_{i=1}^{N} \alpha_{i} - \sum_{i=1}^{N} \alpha_{i} \xi_{i} - \sum_{i}^{N} \mu_{i} \xi_{i} \\ & = - \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( \mathbf{x}_{i} \cdot \mathbf{x}_{j} \right) - \sum_{i=1}^{N} \alpha_{i} y_{i} b + \sum_{i=1}^{N} \alpha_{i} + \sum_{i=1}^{N} \xi_{i} \left( C - \alpha_{i} - \mu_{i} \right) \\ & = - \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( \mathbf{x}_{i} \cdot \mathbf{x}_{j} \right) + \sum_{i=1}^{N} \alpha_{i} \end{aligned}$

如果显示不全可以看下面这张图：

在这里插入图片描述

即
$\begin{aligned} \\ & \min_{\mathbf{w},b,\xi}L \left( \mathbf{w}, b, \xi, \alpha, \mu \right) = - \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( \mathbf{x}_{i} \cdot \mathbf{x}_{j} \right) + \sum_{i=1}^{N} \alpha_{i} \end{aligned}$
3.求 $\max_{\alpha} \min_{\mathbf{w},b, \xi}L \left( \mathbf{w}, b, \xi, \alpha, \mu \right)$ :
$\begin{aligned} \\ & \max_{\alpha} - \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( \mathbf{x}_{i} \cdot \mathbf{x}_{j} \right) + \sum_{i=1}^{N} \alpha_{i} \\ & s.t. \sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \\ & C - \alpha_{i} - \mu_{i} = 0 \\ & \alpha_{i} \geq 0 \\ & \mu_{i} \geq 0, \quad i=1,2, \cdots, N \end{aligned}$
等价的
$\begin{aligned} \\ & \min_{\alpha} \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( \mathbf{x}_{i} \cdot \mathbf{x}_{j} \right) - \sum_{i=1}^{N} \alpha_{i} \\ & s.t. \sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \\ & 0 \leq \alpha_{i} \leq C , \quad i=1,2, \cdots, N \end{aligned}$

4、非线性支持向量机

待更新…

4.1 序列最小最优化算法（SMO)

待更新…

5、SVM实例应用

%matplotlib inline

import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets,linear_model,model_selection,svm

def load_data_classfication():
    iris=datasets.load_iris()
    X_train=iris.data
    y_train=iris.target
    return model_selection.train_test_split(X_train, y_train,test_size=0.25,
        random_state=0,stratify=y_train) 

def test_SVC_linear(*data):
    X_train,X_test,y_train,y_test=data
    cls=svm.SVC(kernel='linear')
    cls.fit(X_train,y_train)
    print('Coefficients:%s, intercept %s'%(cls.coef_,cls.intercept_))
    print('Score: %.2f' % cls.score(X_test, y_test))
    
def test_SVC_poly(*data):
    X_train,X_test,y_train,y_test=data
    fig=plt.figure()
    
    degrees=range(1,20)
    train_scores=[]
    test_scores=[]
    for degree in degrees:
        cls=svm.SVC(kernel='poly',degree=degree)
        cls.fit(X_train,y_train)
        train_scores.append(cls.score(X_train,y_train))
        test_scores.append(cls.score(X_test, y_test))
    ax=fig.add_subplot(1,3,1) 
    ax.plot(degrees,train_scores,label="Training score ",marker='+' )
    ax.plot(degrees,test_scores,label= " Testing  score ",marker='o' )
    ax.set_title( "SVC_poly_degree ")
    ax.set_xlabel("p")
    ax.set_ylabel("score")
    ax.set_ylim(0,1.05)
    ax.legend(loc="best",framealpha=0.5)

    gammas=range(1,20)
    train_scores=[]
    test_scores=[]
    for gamma in gammas:
        cls=svm.SVC(kernel='poly',gamma=gamma,degree=3)
        cls.fit(X_train,y_train)
        train_scores.append(cls.score(X_train,y_train))
        test_scores.append(cls.score(X_test, y_test))
    ax=fig.add_subplot(1,3,2)
    ax.plot(gammas,train_scores,label="Training score ",marker='+' )
    ax.plot(gammas,test_scores,label= " Testing  score ",marker='o' )
    ax.set_title( "SVC_poly_gamma ")
    ax.set_xlabel(r"$\gamma$")
    ax.set_ylabel("score")
    ax.set_ylim(0,1.05)
    ax.legend(loc="best",framealpha=0.5)
    
    rs=range(0,20)
    train_scores=[]
    test_scores=[]
    for r in rs:
        cls=svm.SVC(kernel='poly',gamma=10,degree=3,coef0=r)
        cls.fit(X_train,y_train)
        train_scores.append(cls.score(X_train,y_train))
        test_scores.append(cls.score(X_test, y_test))
    ax=fig.add_subplot(1,3,3)
    ax.plot(rs,train_scores,label="Training score ",marker='+' )
    ax.plot(rs,test_scores,label= " Testing  score ",marker='o' )
    ax.set_title( "SVC_poly_r ")
    ax.set_xlabel(r"r")
    ax.set_ylabel("score")
    ax.set_ylim(0,1.05)
    ax.legend(loc="best",framealpha=0.5)
    plt.show()
    
def test_SVC_rbf(*data):
    X_train,X_test,y_train,y_test=data
    gammas=range(1,20)
    train_scores=[]
    test_scores=[]
    for gamma in gammas:
        cls=svm.SVC(kernel='rbf',gamma=gamma)
        cls.fit(X_train,y_train)
        train_scores.append(cls.score(X_train,y_train))
        test_scores.append(cls.score(X_test, y_test))
    fig=plt.figure()
    ax=fig.add_subplot(1,1,1)
    ax.plot(gammas,train_scores,label="Training score ",marker='+' )
    ax.plot(gammas,test_scores,label= " Testing  score ",marker='o' )
    ax.set_title( "SVC_rbf")
    ax.set_xlabel(r"$\gamma$")
    ax.set_ylabel("score")
    ax.set_ylim(0,1.05)
    ax.legend(loc="best",framealpha=0.5)
    plt.show()
    
def test_SVC_sigmoid(*data):
    X_train,X_test,y_train,y_test=data
    fig=plt.figure()

    gammas=np.logspace(-2,1)
    train_scores=[]
    test_scores=[]

    for gamma in gammas:
        cls=svm.SVC(kernel='sigmoid',gamma=gamma,coef0=0)
        cls.fit(X_train,y_train)
        train_scores.append(cls.score(X_train,y_train))
        test_scores.append(cls.score(X_test, y_test))
    ax=fig.add_subplot(1,2,1)
    ax.plot(gammas,train_scores,label="Training score ",marker='+' )
    ax.plot(gammas,test_scores,label= " Testing  score ",marker='o' )
    ax.set_title( "SVC_sigmoid_gamma ")
    ax.set_xscale("log")
    ax.set_xlabel(r"$\gamma$")
    ax.set_ylabel("score")
    ax.set_ylim(0,1.05)
    ax.legend(loc="best",framealpha=0.5)
    
    rs=np.linspace(0,5)
    train_scores=[]
    test_scores=[]

    for r in rs:
        cls=svm.SVC(kernel='sigmoid',coef0=r,gamma=0.01)
        cls.fit(X_train,y_train)
        train_scores.append(cls.score(X_train,y_train))
        test_scores.append(cls.score(X_test, y_test))
    ax=fig.add_subplot(1,2,2)
    ax.plot(rs,train_scores,label="Training score ",marker='+' )
    ax.plot(rs,test_scores,label= " Testing  score ",marker='o' )
    ax.set_title( "SVC_sigmoid_r ")
    ax.set_xlabel(r"r")
    ax.set_ylabel("score")
    ax.set_ylim(0,1.05)
    ax.legend(loc="best",framealpha=0.5)
    plt.show()
    
if __name__ == "__main__":
    X_train,X_test,y_train,y_test=load_data_classfication() 
    test_SVC_linear(X_train,X_test,y_train,y_test) 
    test_SVC_poly(X_train,X_test,y_train,y_test) 
    test_SVC_rbf(X_train,X_test,y_train,y_test) 
    test_SVC_sigmoid(X_train,X_test,y_train,y_test)

输出结果为：

Coefficients:[[-0.16990304  0.47442881 -0.93075307 -0.51249447]
 [ 0.02439178  0.21890135 -0.52833486 -0.25913786]
 [ 0.52289771  0.95783924 -1.82516872 -2.00292778]], intercept [2.0368826 1.1512924 6.3276538]
Score: 1.00

参考书籍：