机器学习总结三：SVM原理推导与案例

yunpeng.zhou

已于 2022-11-13 21:14:29 修改

阅读量448

点赞数

分类专栏：机器学习文章标签：支持向量机算法

于 2022-10-11 11:17:55 首次发布

本文链接：https://blog.csdn.net/a1314_521a/article/details/127259043

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

机器学习算法总结

五、聚类之K-means

三、SVM

1. 原理推导（硬间隔）

1.1分类问题代数化

**svm原理一句话概括：找出一个最优的直线(或超平面)去隔离不同类别样本数据，达到分类目的。**

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NLPBT27F-1665456037176)(D:\soft_data\jupyterlab_data\机器学习总结\markdown_image\SVM决策边界(硬间隔)].png)$

                图1                                 图2

图1: 找出一条直线将样本完美地划分成两类（注意这样的直线有很多，称为决策边界）。

图2：最优的划分直线满足虚线(超平面)之间距离d最大（容错性高，直观体现支持向量(虚线上的点)的重要性）。

图1：设设x1，x2为决策边界上w^T*x+b=0的两个点，则：
$w^T*X_1+b=0\\w^T*X_2+b=0\\w^T*(X_1-X_2)=0\\\vec{w}\perp(\vec{X_1}-\vec{X_2})即垂直于决策边界$
图2：将决策边界向上平移和向下平移k得到虚线超平面，则
$w^T*X+b=k\\w^T*X+b=-k\\等式两边除以k\\w^T*X+b=1\\w^T*X+b=1\\注：1、-1分别表示平行于决策边界的虚线到决策边界的相对距离，不是具体距离$
**图2：**设Xp、Xn分别为正例和负例样本的支持向量，则：
$w^T*X_p+b=1\\w^T*X_n+b=-1\\w^T*(X_p-X_n)=2\\d=(X_p-X_n)*\frac{\vec{w}}{|\vec{w}|}=\frac{2}{|\vec{w}|} \\因为一个向量(X_p-X_n)点乘一个单位向量\frac{\vec{w}}{|\vec{w}|}等于在单位向量上的投影$
为了最优的分类效果和容错性，需求解满足分类正确前提下距离d的最大值。
$\begin{cases} wx_i+b\geq1, & if y_i=1 \\ wx_i+b\leq-1, & if y_i=-1 \end{cases} \\x_i、y_i真实样本特征和标签\\ 简化表示：y_i(wx_i+b)\geq1\\1-y_i(wx_i+b)\leq0$
求解最优决策边界代数化问题为：
$d_{max}=min\frac{1}{2}|\vec{w}|=min\frac{1}{2}\vec{w}^2\\ s.t：1-y_i(wx_i+b)\leq0$

1.2 带有约束的凸优化最优解问题

最优决策边界的代数化表示是一个带有约束的凸优化最优解问题，使用拉格朗日因子法求解(专门求解带约束的最优化问题的方法）。

原始问题对应拉格朗日函数为：
$L(w,b,\lambda)=\frac{1}{2}w^T*w+\sum_{i=0}^n\lambda_i[1-y_i(w^T*x_i+b)]\\\lambda\geq0$
且有：
$原始问题：min\frac{1}{2}\vec{w}^2===min_{w,b}max_\lambda L(w,b,\lambda)(\lambda\geq0)$
证明：
$\because max_\lambda L(w,b,\lambda) = \begin{cases} +\infty, & if 约束不满足时即1-y_i(w_t*x_i+b)>0 \\ \frac{1}{2}w^T*w, & if 约束满足时即1-y_i(w_t*x_i+b)\leq0 \end{cases}\\ \therefore min_{w,b}max_\lambda L(w,b,\lambda)=min_{w,b}\{+\infty,\frac{1}{2}w^T*w\}=min\frac{1}{2}w^T*w且约束条件满足$
所以：原始问题可以表示为：
$求解极小极大值问题：min_{w,b}max_\lambda L(w,b,\lambda)(\lambda\geq0)$

1.3 对偶问题

极小极大值转化为对偶问题再求解。

好处：

改变算法复杂度. 对偶问题往往更容易求解.（原始问题求解与特征维度相关，对偶问题计算量与样本量相关）
转化为对偶问题得到内积的形式, 引入核函数, 进而推广到非线性分类问题.

原始问题对应的对偶问题：
$求解极大极小值问题：max_\lambda min_{w,b}L(w,b,\lambda)(\lambda\geq0)$
原始问题与对偶问题之间关系：原始问题>=对偶问题

证明：
$max_\lambda L(w,b,\lambda)\geq L(w,b,\lambda)\geq min_{w,b} L(w,b,\lambda)\\ 设P=max_\lambda L(w,b,\lambda);Q=min_{w,b} L(w,b,\lambda)\\P\geq Q恒成立\\ min_{w,b}P\geq max_\lambda Q\\即：min_{w,b}max_\lambda L(w,b,\lambda)(\lambda\geq0)\geq max_\lambda min_{w,b}L(w,b,\lambda)(\lambda\geq0)$
当原问题为凸优化问题,约束条件线性，满足KKT条件时：原始问题===对偶问题（具体深入了解百度拉格朗日对偶问题，最好先学习拉格朗日因子法，对偶函数，再学习SVM，才能完全理解）

1.4 求解对偶问题

$\begin{array}{l} 1.先求 min_{w,b} L(w,b,\lambda)\\L(w,b,\lambda)=\frac{1}{2}w^T*w+\sum_{i=0}^n\lambda_i[1-y_i(w^T*x_i+b)]（\lambda\geq0）\\L(w,b,\lambda)=\frac{1}{2}w^T*w+\sum_{i=0}^n\lambda_i[1-y_i(w^T*x_i+b)]=\frac{1}{2}w^T*w+\sum_{i=0}^n\lambda_i-\sum_{i=0}^n\lambda_iy_ix_iw^t-\sum_{i=0}^n\lambda_iy_ib\\ \frac{\delta L(w,b,\lambda)}{\delta w}=w-\sum_{i=0}^n\lambda_ix_iy_i=0-->w=\sum_{i=0}^n\lambda_ix_iy_i\\ \frac{\delta L(w,b,\lambda)}{\delta b}=-\sum_{i=0}^n\lambda_iy_i=0\\带入w、b一阶导\\min_{w,b} L(w,b,\lambda)=-\frac{1}{2}w^T*w+\sum_{i=0}^n\lambda_i=-\frac{1}{2}w^T*w+\sum_{i=0}^n\lambda_i=-\frac{1}{2}\sum_{i=0}^n\sum_{j=0}^n\lambda_i\lambda_j y_iy_jx_ix_j+\sum_{i=0}^n\lambda_i \end{array}$

$\begin{array}{l}\hspace{100cm}\\ 2. 再求max_\lambda min_{w,b} L(w,b,\lambda)\\ \begin{matrix}max \\\lambda\end{matrix} L(\lambda)=-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\lambda_i\lambda_jy_iy_j\vec{x_i}\vec{x_j}+\sum_{i=1}^n\lambda_i \end{array}$

重要结论1：w、b结果与λ相关，λ结果与样本特征内积相关*

1.5 smo(Sequential minimal optimization)快速求解λ

λi的个数与样本量相关，样本量大时，计算量很大，采用计算更快的smo算法。
$\begin{array}{l} SMO是一种解决此类支持向量机优化问题的迭代算法。由于目标函数为凸函数，\\ 一般的优化算法都通过梯度方法一次优化一个变量求解二次规划问题的最大值，\\ 但是，对于以上问题，由于限制条件 -\sum_{i=0}^n\lambda_iy_i=0存在，\\ 当某个\lambda从 λ^{old}更新到λ^{new}时，上述限制条件即被打破。\\ 为了克服以上的困难，SMO采用一次更新两个变量的方法。最后根据λ求出w、b。 \end{array}$
5.1 关于λ的最大化问题，转化为最小化问题
$\begin{array}{l}\hspace{100cm}\\ max_\lambda L(\lambda)=-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\lambda_i\lambda_jy_iy_j\vec{x_i}\vec{x_j}+\sum_{i=1}^n\lambda_i \\ min_\lambda L(\lambda)=\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\lambda_i\lambda_jy_iy_j\vec{x_i}\vec{x_j}-\sum_{i=1}^n\lambda_i\\ 已知条件：\lambda\geq0；\\ w=\sum_{i=1}^n\lambda_iy_ix_i（上一步对w求导所得）;\sum_{i=1}^n\lambda_iy_i=0（上一步对b求导所得） \end{array}$
5.2 设λ1、λ2为变量，其他λ为定值，则：
$\begin{array}{l}\hspace{100cm}\\ \because \sum_{i=1}^n\lambda_iy_i=0\\ \therefore\lambda_1y_1+\lambda_2y_2+\sum_{i=3}^n\lambda_iy_i=0\\ 设\sum_{i=3}^n=-C,则\lambda_1y_1+\lambda_2y_2=C(C为常数)\\ \therefore \lambda_1=(C-\lambda_2y_2)y_1(公式3下面会使用)\\ 注意y_i\in[1,-1],y_i^2=1,消去y_1时，要等式两边乘以y_1，不要除 \end{array}$

$\begin{array}{l}\hspace{100cm}\\ 决策函数：f(x_i)=w^Tx_i+b\\ \because w=\sum_{i=1}^n\lambda_iy_ix_i\\ \therefore f(x_1)=\sum_{i=1}^n\lambda_iy_ix_i^T*x_1+b=\lambda_1y_1x_1^T*x_1+\lambda_2y_2x_2^T*x_1+\sum_{i=3}^n\lambda_iy_ix_i^T*x_1+b\\ \therefore f(x_2)=\sum_{i=1}^n\lambda_iy_ix_i^T*x_2+b=\lambda_1y_1x_1^T*x_2+\lambda_2y_2x_2^T*x_2+\sum_{i=3}^n\lambda_iy_ix_i^T*x_2+b\\ \sum_{i=3}^n\lambda_iy_i\vec{x_i}.\vec{x_1}=f(x_1)-\lambda_1y_1\vec{x_1}.\vec{x_1}-\lambda_2y_2\vec{x_2}.\vec{x_1}-b(公式1下面会使用)\\ \sum_{i=3}^n\lambda_iy_i\vec{x_i}.\vec{x_2}=f(x_2)-\lambda_1y_1\vec{x_1}.\vec{x_2}-\lambda_2y_2\vec{x_2}.\vec{x_2}-b(公式2下面会使用) \end{array}$

5.3 提取λ1、λ2进行求解
$\begin{array}{l}\hspace{100cm}\\ 1.化简求\lambda的代数式\\ \begin{matrix}min \\\lambda\end{matrix} L(\lambda)=\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\lambda_i\lambda_jy_iy_j\vec{x_i}\vec{x_j}-\sum_{i=1}^n\lambda_i\\ \begin{matrix}min \\\lambda\end{matrix} L(\lambda_1,\lambda_2)=\frac{1}{2}\lambda_1\lambda_1y_1y_1\vec{x_1}\vec{x_1}+\frac{1}{2}\lambda_1\lambda_2y_1y_2\vec{x_1}\vec{x_2}+\frac{1}{2}\sum_{j=3}^n\lambda_1\lambda_jy_1y_j\vec{x_1}\vec{x_j}+ \frac{1}{2}\lambda_2\lambda_1y_2y_1\vec{x_2}\vec{x_1}+\frac{1}{2}\lambda_2\lambda_2y_2y_2\vec{x_2}\vec{x_2}+\frac{1}{2}\sum_{j=3}^n\lambda_2\lambda_jy_2y_j\vec{x_2}\vec{x_j}+\frac{1}{2}\sum_{i=3}^n\lambda_i\lambda_1y_iy_1\vec{x_i}\vec{x_1}+\frac{1}{2}\sum_{i=3}^n\lambda_i\lambda_2y_iy_2\vec{x_i}\vec{x_2}+\frac{1}{2}\sum_{i=3}^n\sum_{j=3}^n\lambda_i\lambda_jy_iy_jk_{ij} -\lambda_1-\lambda_2-\sum_{i=3}^n\lambda_i\\ \\ 1.1 设\vec{x_i}\vec{x_j}=k_{ij}\\ \begin{matrix}min \\\lambda\end{matrix} L(\lambda_1,\lambda_2)=\frac{1}{2}\lambda_1^2k_{11}+\frac{1}{2}\lambda_1\lambda_2y_1y_2k_{12}+\frac{1}{2}\sum_{j=3}^n\lambda_1\lambda_jy_1y_jk_{1j}+\frac{1}{2}\lambda_2\lambda_1y_2y_1k_{21}+\frac{1}{2}\lambda_2^2k_{22}+\frac{1}{2}\sum_{j=3}^n\lambda_2\lambda_jy_2y_jk_{2j}+\frac{1}{2}\sum_{i=3}^n\lambda_i\lambda_1y_iy_1k_{i1}+\frac{1}{2}\sum_{i=3}^n\lambda_i\lambda_2y_iy_2k_{i2}+\frac{1}{2}\sum_{i=3}^n\sum_{j=3}^n\lambda_i\lambda_jy_iy_jk_{ij} -\lambda_1-\lambda_2-\sum_{i=3}^n\lambda_i\\ \\ 1.2 删除常量，合并相等项\\ \begin{matrix}min \\\lambda\end{matrix} L(\lambda_1,\lambda_2)=\frac{1}{2}\lambda_1^2k_{11}+2*\frac{1}{2}\lambda_1\lambda_2y_1y_2k_{12}+\frac{1}{2}\lambda_2^2k_{22}+2*\frac{1}{2}\sum_{i=3}^n\lambda_i\lambda_1y_iy_1k_{i1}+2*\frac{1}{2}\sum_{i=3}^n\lambda_i\lambda_2y_iy_2k_{i2} -\lambda_1-\lambda_2\\ \begin{matrix}min \\\lambda\end{matrix} L(\lambda_1,\lambda_2)=\frac{1}{2}\lambda_1^2k_{11}+\lambda_1\lambda_2y_1y_2k_{12}+\frac{1}{2}\lambda_2^2k_{22}+\lambda_1y_1\sum_{i=3}^n\lambda_iy_ik_{i1}+\lambda_2y_2\sum_{i=3}^n\lambda_iy_ik_{i2} -\lambda_1-\lambda_2\\ \\ 2.带入公式3\\ \begin{matrix}min \\\lambda\end{matrix} L(\lambda_2)=\frac{1}{2}(C-\lambda_2y_2)^2k_{11}+(C-\lambda_2y_2)\lambda_2y_2k_{12}+\frac{1}{2}\lambda_2^2k_{22}+(C-\lambda_2y_2)\sum_{i=3}^n\lambda_iy_ik_{i1}+\lambda_2y_2\sum_{i=3}^n\lambda_iy_ik_{i2} -(C-\lambda_2y_2)y_1-\lambda_2\\ \frac{\delta'L(\lambda_2)}{\delta \lambda_2}=-Cy_2k_{11}+k_{11}\lambda_2+Cy_2k_{12}-2k_{12}\lambda_2+k_{22}\lambda_2-y_2\sum_{i=3}^n\lambda_iy_ik_{i1}+y_2\sum_{i=3}^n\lambda_iy_ik_{i2}+y_1y_2-1=0\\ k_{11}\lambda_2-2k_{12}\lambda_2+k_{22}\lambda_2=1+Cy_2k_{11}-Cy_2k_{12}+y_2\sum_{i=3}^n\lambda_iy_ik_{i1}-y_2\sum_{i=3}^n\lambda_iy_ik_{i2}-y_1y_2\\ (k_{11}-2k_{12}+k_{22})\lambda_2=y_2(y_2+Ck_{11}-Ck_{12}+\sum_{i=3}^n\lambda_iy_ik_{i1}-\sum_{i=3}^n\lambda_iy_ik_{i2}-y_1)(其中：1\Rightarrow y_2y_2)\\ \\ 3.代入公式1、公式2\\ \sum_{i=3}^n\lambda_iy_ik_{i1}-\sum_{i=3}^n\lambda_iy_ik_{i2}=(f(x_1)-\lambda_1^{old}y_1\vec{x_1}.\vec{x_1}-\lambda_2^{old}y_2\vec{x_2}.\vec{x_1}-b)-(f(x_2)-\lambda_1^{old}y_1\vec{x_1}.\vec{x_2}-\lambda_2^{old}y_2\vec{x_2}.\vec{x_2}-b)=f(x_1)-\lambda_1^{old}y_1k_{11}-\lambda_2^{old}y_2k_{21}-f(x_2)+\lambda_1^{old}y_1k_{12}+\lambda_2^{old}y_2k_{22}\\ \lambda_1^{old}y_1+\lambda_2^{old}y_2=C\\ (k_{11}-2k_{12}+k_{22})\lambda_2^{new}=y_2(y_2+(\lambda_1^{old}y_1+\lambda_2^{old}y_2)k_{11}-(\lambda_1^{old}y_1+\lambda_2^{old}y_2)k_{12}+f(x_1)-\lambda_1^{old}y_1k_{11}-\lambda_2^{old}y_2k_{21}-f(x_2)+\lambda_1^{old}y_1k_{12}+\lambda_2^{old}y_2k_{22}-y_1)\\ \lambda_2^{new}=\frac{y_2[y_2-f(x_2)-(y_1-f(x_1))+\lambda_2^{old}y_2(k_{11}-2k_{12}+k_{22})]}{k_{11}-2K_{12}+k_{22}}=\lambda_2^{old}+\frac{y_2[y2-f(x_2)-(y_1-f(x_1)]}{k_{11}-2K_{12}+k_{22}}\\\\ \lambda_2^{new}=\lambda_2^{old}+\frac{y_2(E_2-E_1)}{k_{11}-2K_{12}+k_{22}} （E_1、E_2真实标签与决策函数结果之差） \end{array}$

重要结论2：

$\lambda_2^{new}=\lambda_2^{old}+\frac{y_2(E_2-E_1)}{k_{11}-2K_{12}+k_{22}}\\ \lambda_i更新只与真实标签y_i、真实标签y_i与预测值f(x_i)差值和样本x_ix_j内积相关$

1.6 核函数

6.1 分类中问题

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-c6onigY6-1665456037178)(D:\soft_data\jupyterlab_data\机器学习总结\SVM\markdown_image\image-20221011084101768.png)]$

$\begin{array}{l}有些分类问题不是线性可分的（如左图异或问题）， \\进行高维映射后(右图) （x_1,x_2）--> （x_1,x_2,x_1*x_2）\\线性可分。 \end{array}$

对偶问题求λ的极值亦随之变化。
$\begin{matrix}min \\\lambda\end{matrix} L(\lambda)=\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\lambda_i\lambda_jy_iy_j\vec{x_i}\vec{x_j}-\sum_{i=1}^n\lambda_i$

$\begin{matrix}min \\\lambda\end{matrix} L(\lambda)=\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\lambda_i\lambda_jy_iy_j\phi(\vec{x_i})\phi(\vec{x_j})-\sum_{i=1}^n\lambda_i \\ \phi(X)是样本X的高维映射函数 \\ 注：缺陷样本进行高维映射后，可以解决线性不可分问题，但计算量大大增加(需先高维映射再求样本点内积)$

6.2 核函数作用：将高维特征的计算转化到低维计算

$\begin{array}{l} 样本1:(x_1,x_2) -->(x_1^2,x_2^2,\sqrt{2}x_1x_2)\\ 样本2：(z_1,z_2) -->(z_1^2,z_2^2,\sqrt{2}z_1z_2)\\ \phi(X)\phi(Z)=x_1^2z_1^2+x_2^2z_2^2+2x_1x_2z_2z_2\\ K<X,Z>(核函数)=(X*Z)^2=x_1^2z_1^2+x_2^2z_2^2+2x_2x_2z_1z_2\\ \\ \phi(x)\phi(z)=K<X,Z>\\ 特征高维映射后，再求内积和直接使用核函数带入样本点求解结果一样\\ \\ 则求λ最优解问题，可改写如下： \begin{matrix}min \\\lambda\end{matrix} L(\lambda)=\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\lambda_i\lambda_jy_iy_jK<\vec{x_i},\vec{x_j}>-\sum_{i=1}^n\lambda_i \\核函数巧妙的避过了样本特征先进行高维映射，再求内积的过程，只需要将核函数K带入最优化问题求解即可 \end{array}$
6.3 常用核函数（sklearn）
$\begin{array}{l} 1.线性核：处理线性问题\\ kernel='linear'\\ K<x,y>=x^T*y=x.y\\ \\ 2.多项式核：处理偏线性问题\\ kernel='poly'\\ K<x,y>=(\gamma(x.y)+\Upsilon)^d\\ \\ 3.双曲正切核：处理非线性问题\\ kernel='sigmiod'\\ K<x,y>=tanh(\gamma(x.y)+\Upsilon)\\ \\ 4.高斯径向基：处理偏非线性问题(sklearn 默认)\\ kernel='rbf'\\ K<x,y>=e^{-\gamma|x-y|^2},\gamma>0\\ 高斯核函数参数\gamma理解：\\ 设d为两个样本点高维映射后的距离；\phi(x)为映射函数\\ d=|\phi(x_1)-\phi(x_2)|^2=\phi(x_1)\phi(x_1)+\phi(x_2)\phi(x_2)-2\phi(x_1)\phi(x_2)\\ =e^{-\gamma|x_1-x_1|^2}+e^{-\gamma|x_2-x_2|^2}-2e^{-\gamma|x_1-x_2|^2}\\ d=2-2e^{-\gamma|x_1-x_2|^2}=\begin{cases} 2-2^0=0, & if \gamma 趋近于0时 \\ 2-2e^{-∞}=2, & if \gamma 趋近于+∞时 \end{cases}\\ 当\gamma趋近于0时，d=2-2*e^0=0，样本间距离趋近0，不易区分，易欠拟合;\\ 当\gamma趋近于+∞时，d=2-2*e^{-∞}=2，样本间距离变大，更易区分，容易过拟合\\ \\ 其中：kernel、d、\gamma、\Upsilon分别对应svc中参数kernel、degree、gamma、cof0(选取不同核函数需调优不同的参数) \end{array}$

1.7 软间隔

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bRxyxrYr-1665456037178)(D:\soft_data\jupyterlab_data\机器学习总结\SVM\markdown_image\image-20221011094846716.png)]$

如图：不是每个样本都能被正确划分。

软间隔是处理线性不可分问题、减少噪点影响时引入的方法，其通过牺牲某些点必须正确划分的限制，以换取更大分割间隔的方法，其特点在分类时为了整体效果会存在错误点。

7.1 软间隔处理方案
$\begin{array}{l} 设分类损失变量\xi\\ \xi_i\geq1-y_i(wx_i+b)（\xi\geq0）\\ \xi_i\geq max\{0,1-y_i(wx_i+b)\}\\ \end{array}$
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Gadcgk6X-1665456037179)(D:\soft_data\jupyterlab_data\机器学习总结\SVM\markdown_image\image-20221011095214507.png)]$

$\begin{array}{l} 如图:\\ 当y_i(wx_i+b)\geq1即分类正确且样本在虚线超平面之外时，损失\xi_i为0；\\ 当1> y_i(wx_i+b)\geq0即分类正确但样本在虚线超平面与决策边界之间时，损失\xi_i \in(0,1)；\\ 如图，当y_i(wx_i+b)< 0即样本分类错误时，损失\xi_i\geq 1。\\ \\ 原始问题求解最大几何间隔，添加损失项如下：\\ min\frac{1}{2}\vec{w}^2+C\sum_{i=1}^n\xi_i\\ 参数C惩罚系数越大，要求尽量全部分类正确，且在虚线超平面之外，容易造成过拟合 \end{array}$

2. 案例

导入模块

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification,make_moons,make_circles

from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler

创建样本数据

# 生成测试数据
data1 = make_classification(
    n_redundant=0,n_repeated=0,n_classes=2,n_clusters_per_class=1,weights=None,
    random_state=1)

# 生成月亮型样本数据
data2 = make_moons(random_state=1)

# 生成环形数据
data3 = make_circles(random_state=1)
scaler = StandardScaler()
x1=scaler.fit_transform(data1[0]);y1=data1[1]
x2=scaler.fit_transform(data2[0]);y2=data2[1]
x3=scaler.fit_transform(data3[0]);y3=data3[1]

plt.figure(figsize=(12,5))
plt.subplot(1,3,1)
plt.scatter(x=x1[y1==0,0],y=x1[y1==0,1],c='r')
plt.scatter(x=x1[y1==1,0],y=x1[y1==1,1],c='b')
plt.xticks([]);plt.yticks([])
# 绘制月亮型数据图像
plt.subplot(1,3,2)
plt.scatter(x=x2[y2==0,0],y=x2[y2==0,1],c='r')
plt.scatter(x=x2[y2==1,0],y=x2[y2==1,1],c='b')
plt.xticks([]);plt.yticks([])
# 绘制环形数据图像
plt.subplot(1,3,3)
plt.scatter(x=x3[y3==0,0],y=x3[y3==0,1],c='r')
plt.scatter(x=x3[y3==1,0],y=x3[y3==1,1],c='b')
plt.xticks([]);plt.yticks([])

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eC7XWwFU-1665456037181)(D:\soft_data\jupyterlab_data\机器学习总结\SVM\markdown_image\image-20221011101147813.png)]$

绘制svm分类决策边界

x = np.arange(-1.5,1.5,0.1)
y = np.arange(-1.5,1.5,0.1)
x,y = np.meshgrid(x,y)

# 样本数据1,样本可分使用 'linear'线性核函数
svc1 = SVC(kernel='linear')
svc1.fit(x1,y1)
def1 = svc1.decision_function
z1 = def1(np.hstack((x.reshape(-1,1),y.reshape(-1,1)))).reshape(30,30)

# 样本数据2,样本非线性 使用偏非线性'rbf'高斯核函数
svc2 = SVC(kernel='rbf',gamma=2)
svc2.fit(x2,y2)
def2 = svc2.decision_function
z2 = def2(np.hstack((x.reshape(-1,1),y.reshape(-1,1)))).reshape(30,30)

# 样本数据1,样本非线性 使用偏非线性'rbf'高斯核函数
svc3 = SVC(kernel='rbf')
svc3.fit(x3,y3)
def3 = svc3.decision_function
z3 = def3(np.hstack((x.reshape(-1,1),y.reshape(-1,1)))).reshape(30,30)

# 绘制决策边界
plt.figure(figsize=(12,5))
plt.subplot(1,3,1)
plt.scatter(x=x1[y1==0,0],y=x1[y1==0,1],c='r')
plt.scatter(x=x1[y1==1,0],y=x1[y1==1,1],c='b')
plt.contour(x,y,z1,levels=[0])
plt.xticks([]);plt.yticks([])
# 绘制月亮型数据图像
plt.subplot(1,3,2)
plt.scatter(x=x2[y2==0,0],y=x2[y2==0,1],c='r')
plt.scatter(x=x2[y2==1,0],y=x2[y2==1,1],c='b')
plt.contour(x,y,z2,levels=[0])
plt.xticks([]);plt.yticks([])
# 绘制环形数据图像
plt.subplot(1,3,3)
plt.scatter(x=x3[y3==0,0],y=x3[y3==0,1],c='r')
plt.scatter(x=x3[y3==1,0],y=x3[y3==1,1],c='b')
plt.contour(x,y,z3,levels=[0])
plt.xticks([]);plt.yticks([])