支持向量机SVM介绍以及MATLAB实现

爱听雨的犬猫

已于 2022-09-19 14:04:30 修改

阅读量1.5w

点赞数 69

文章标签：支持向量机 matlab 机器学习

于 2022-08-17 16:44:48 首次发布

本文链接：https://blog.csdn.net/m0_56306305/article/details/126378388

版权

文章目录

一、介绍
二、支持向量机分类基本原理
三、MATLAB实现
- libsvm包实现

一、介绍

支持向量机是数据挖掘中的一项新技术，是借助最优化方法来解决机器学习问题的新工具，最初由V.Vapnik等人提出，近几年来在其理论研究和算法实现等方面都取得了很大的进展,开始成为克服“维数灾难”和“过学习”等困难的强有力手段，其理论基础和实现途径的基本框架都已形成。
支持向量机(Support Vector Machine ，以下简称SVM)在模式识别等领域获得了广泛的应用。其主要思想是找到一个超平面，使得它能够尽可能多地将两类数据点正确分开，同时使分开的两类数据点距离分类面最远，如下图(b)所示。（与图(a)做对比）
在进行线性分类时，将分类面取在离两类样本距离较大的地方；进行非线性分类时通过高维空间变换，将非线性分类变成高维空间的线性分类问题。
在这里插入图片描述

二、支持向量机分类基本原理

根据给定的训练集 $T$ = { $a_1,y_1],[a_2,y_2],···,[a_l,y_l]$ } $\in$ ( $\Omega \times Y)^l$ ，式中 $a_i \in \Omega = R^n$ ， $\Omega$ 称为输入空间，输入空间中的每个点 $a_i$ ，由 $n$ 个属性特征组成； $y_i \in Y =$ {-1,1}， $i = 1, 2,\cdot\cdot\cdot, l$ 。寻找 $R^n$ 上的一个实值函数 $g (x)$ ,以便用分类函数
$f (x) = s i g n (g (x))$ ,
推断任意一个模式 $x$ 相对应的 $y$ 值的问题为分类问题。

2.1 线性可分SVM

支持向量机最初是研究线性可分问题而提出的，因此，这里先详细介绍线性SVM的基本
思想及原理。
为不失一般性，假设大小为 $l$ 的训练样本集{( $x_i,y_i$ ), $i = 1, 2,\cdot\cdot\cdot, l$ }由两个类别组成。若 $x_i$ 属于第一类，则记 $y_i$ =1；若 $x_i$ 属于第二类，则记 $y_i$ = -1。
若存在分类超平面
$\omega ·x +b =0\tag{2.1.1}$
能够将样本正确地划分成两类，即相同类别的样本都落在分类超平面的同一侧，则称该样本集是线性可分的，即满足
$\begin{cases} \omega· x +b \geq 1,&y_i = 1(i= 1,2,···,l)\tag{2.1.2} \\ \omega· x +b \leq -1,&y_i = -1(i= 1,2,···,l)\\ \end{cases}$
定义样本点 $x_i$ ；到式(2.1.1)所指的分类超平面的间隔为
$\epsilon_i = y_i(\omega· x_i + b) = | \omega ·x_i + b |\tag{2.1.3}$
将式(2.1.3)中的 $\omega 和 b$ 进行归一化，即用 $\frac{\omega}{||\omega||}和\frac{b}{||b||}$ 分别代替原来的 $\omega 和b$ ，并将归一化后的间隔定义为集合间隔
$\delta_i = \frac{\omega ·x_i + b}{|| \omega ||}\tag{2.1.4}$
同时定义一个样本集到超平面的距离为此集合与分类超平面最近的样本点的几何间隔，即
$\delta = \min \delta_i,(i = 1,2,···,l)\tag{2.1.5}$
样本误分次数 $N$ 与样本集到分类超平面的距离 $\delta$ 之间的关系为
$\leq (\frac{2R}{\delta})^2\tag{2.1.6}$
其中， $R = \max ||x_i||,i = 1,2,···,l$ ，为样本集中间向量长度最长的值。
由式(2.1.6)可知，误分次数 $N$ 的上界由样本集到分类超平面的距离 $\delta$ 决定，即 $\delta$ 越大， $N$ 越小。因此，需要在满足式(2.1.2)的无数个分类超平面中选择一个最优分类面，使得样本集到分类超平面的距离 $\delta$ 最大。
若间隔 $\epsilon_i = | \omega ·x_i + b | =1$ ，则两类样本点间的距离为 $2\frac{|\omega· x_i + b|}{|| \omega ||} = \frac{2}{|| \omega ||}$ 。因此，如下图所示，目标即为在满足式(2.1.2)的约束下寻求最优分类超平面，使得 $\frac{2}{|| \omega ||}$ 最大，即最小化 $\frac{|| \omega||^2}{2}$ 。

用数学语言描述，即，

$\begin{cases} \min \frac{|| \omega||^2}{2}\tag{2.1.7} \\ s.t. \quad y_i(\omega ·x_i + b)\geq 1,i =1,2,···,l \end{cases}$
该问题目标函数 $\frac{|| \omega||^2}{2}$ 是 $\omega$ 的凸函数，并且约束条件都是线性的。引入拉格朗日函数
$L(\omega ,b,\alpha) = \frac{1}{2}||\omega||^2 - \sum_{i=1}^l \alpha_i[y_i(\omega ·x_i +b)-1]\tag{2.1.8}$
其中， $\alpha = [\alpha_1,···,\alpha_l]^T \in R^{l+}$ 为拉格朗日乘子。
由于计算的复杂性，一般不直接求解，而是根据对偶理论，将(2.1.8)转化成对偶问题，即
$\begin{cases} \max Q(\alpha) = \sum\limits_{i=1}^l \alpha_i-\frac{1}{2}\sum\limits_{i=1}^l\sum\limits_{j=1}^l\alpha_i\alpha_jy_iy_j(x_i·x_j)\tag{2.1.9}\\ s.t. \sum\limits_{i=1}^l\alpha_iy_i = 0,&\alpha \geq 0\\ \end{cases}$
这个问题可以用二次规划方程求解。设最优解为 $\alpha^* = [\alpha_1^*,···,\alpha_l^*]^T$ ，则可以得到最优解 $\omega^*和b^*$ 为
$\begin{cases} \omega^* = \sum\limits_{i=1}^l\alpha^*_ix_iy_i\tag{2.1.10}\\ b^* = -\frac{1}{2}\omega^*(x_r+x_s)\\ \end{cases}$
其中， $x_r和x_s$ 为两个类别中的任意一对支持向量。
最终得到的分类模型为
$sgn[\sum\limits_{i=1}^l\alpha_i^*y_i(x·x_i) + b^*]\tag{2.1.11}$
值得一提的是，若数据集中的绝大多数样本是线性可分的，仅有少数几个样本(可能是异常点)导致寻找不到最优分类超平面(入下图所示)
在这里插入图片描述

针对此类情况,通用的做法是引入松弛变量，并对式(2.1.7)中的优化目标即约束项进行修正，即
$\begin{cases} \min \frac{|| \omega||^2}{2} + C\sum\limits_{i=1}^l\xi_i\tag{2.1.12} \\ s.t. \quad {\begin{cases} y_i(\omega x_i + b)\geq 1-\xi_i \\ \xi_i>0&,i =1,2,···,l\\ \end{cases}} \\ \end{cases}$
其中, $C$ 为惩罚因子，起着控制错分样本惩罚程度的作用，从而实现在错分样本的比例与算法复杂度间的折中。求解方法与式(2.1.8)相同，即转化为其对偶问题
$L(\omega ,b,\xi,\alpha,\gamma) = \frac{1}{2}||\omega||^2 + C\sum\limits_{i=1}^l\xi_i- \sum_{i=1}^l \alpha_i[y_i(\omega ·x_i +b)-1 + \xi_i] - \sum\limits_{i=1}^l\gamma_i\xi_i$
只是约束条件变为
$\begin{cases} \sum\limits_{i=1}^l\alpha_iy_i = 0,&i =1,2,···,l\tag{2.1.13}\\ 0\leq \alpha_i \leq C \end{cases}$
最终求得到的分类函数形式与(2.1.11)一样。

2.2 线性不可分SVM

在实际应用中，绝大多数问题都是非线性的，这时对于线性可分SVM是无能为力的。对于此类线性不可分问题，常用的方法是通过非线性映射 $\Phi:R^d→H$ ，将原输人空间的样本映射到高维的特征空间 $H$ 中，再在高维特征空间 $H$ 中构造最优分类超平面，如下图所示。另外，与线性可分SVM相同，考虑到通过非线性映射到高维特征空间后仍有因少量样本造成的线性不可分情况，亦考虑引入松弛变量。

在高维特征空间中寻求最优分类超平面的过程及方法与线性可分SVM情况类似，只是
以核函数取代了高维特征空间中的点积，从而大大减少了计算量与复杂度。
映射到高维特征空间后对应的对偶问题变为
$\begin{cases} \max Q(\alpha) = \sum\limits_{i=1}^l \alpha_i-\frac{1}{2}\sum\limits_{i=1}^l\sum\limits_{j=1}^l\alpha_i\alpha_jy_iy_jK(x_i·x_j)\tag{2.1.15}\\ s.t. \quad {\begin{cases} \sum\limits_{i=1}^l\alpha_iy_i = 0,&,i =1,2,···,l \\ 0 \leq \alpha_i\leq C \\ \end{cases}} \\ \end{cases}$
设最优解为 $\alpha^* = [\alpha_1^*,···,\alpha_l^*]^T$ ，则
$\omega^* = \sum\limits_{i=1}^l\alpha^*_i\Phi(x_i)y_i\tag{2.1.16}$
从而得到最优的分类模型为
$sgn(\omega^*\Phi(x) + b^*) = sgn(\sum\limits_{i=1}^l\alpha_i^*y_i\Phi(x)·\Phi(x_i) + b^*) \\= sgn(\sum\limits_{i=1}^l\alpha_i^*y_iK(x_i,x) + b^*)\tag{2.1.17}$
容易证明，解中将只有一部分(通常是少部分)不为零，非零部分对应的样本 $x_i$ 就是支持向量，决策边界仅由支持向量确定。由式(2.1.15)也可以看出，支持向量机的结构与神经网络的结构较为类似，如下图所示。输出是中间节点的线性组合，每个中间节点对应一个支持向量。

常用的核函数

函数	公式
线性核函数	$K(x,x_i) = x·x_i$
多项式核函数	$K(x,x_i) = (x·x_i + 1)^d$
径向基核函数	$K(x,x_i) = exp(\frac{\|\|x-x_i\|\|^2}{2 \sigma^2})$
Sigmoid核函数	$K(x,x_i) = tanh(k((x·x_i) + \theta)$
傅里叶核函数	$K(x,x_i) = \sum\limits_{k=1}^n\frac{1-q^2}{2[1-2qcos(a_{ik}-a_{jk})+q^2]}$

2.3 多分类问题

由线性可分SVM和线性不可分SVM的原理可知，支持向量机仅限于处理二分类问题，对于多分类问题，须做进一步的改进。目前，构造多分类SVM的方法主要有两个：直接法和间接法。直接法通过修改待求解的优化问题，直接计算出用于多分类的分类函数，该方法计算量较大、求解过程复杂、花费时间较长,实现起来比较困难。间接法主要是通过组合多个二分类SVM来实现多分类SVM的构建,常见的方法有一对一(one-against-one)和一对多(one-against- all)两种。

2.3.1一对一（ovo）

一对一在 $K$ 类训练样本中构造所有可能的二分类SVM，即将每类样本与其他类别的样本分别构成二分类问题,共构造 $\frac{K(K-1)}{2}$ 个二分类SVM。测试样本经过所有的二分类SVM进行分类，然后对所有类别进行投票，得票最多的类别(最占优势的类别)即为测试样本所属的类别。

2.3.2一对多（ovr）

一对多由 $K$ 个二分类SVM组成，第 $i (i = 1, 2, \dots, K)$ 个二分类SVM将第 $i$ 类训练样本的类别标记为+1,而将其余所有训练样本的类别标记为-1。测试样本经过所有二分类SVM进行分类，然后根据预测得到的类别标号判断是否属于第 $i (i = 1, 2, \dots, K)$ 个类别。

2.3.2ovo 和ovr 区别

区别如下图所示：

三、MATLAB实现

libsvm包实现

本例将用乳腺癌诊断来对算法进行实现

1.产生训练集/测试集

%% 清空环境变量
clear all
clc
%% 导入数据
load BreastTissue_data.mat
% 随机产生训练集和测试集
n = randperm(size(matrix,1));
% 训练集——80个样本
train_matrix = matrix(n(1:80),:);
train_label = label(n(1:80),:);
% 测试集——26个样本
test_matrix = matrix(n(81:end),:);
test_label = label(n(81:end),:);

2. 数据归一化

%% 数据归一化
[Train_matrix,PS] = mapminmax(train_matrix');
Train_matrix = Train_matrix';
Test_matrix = mapminmax('apply',test_matrix',PS);
Test_matrix = Test_matrix';

3. SVM创建/训练(RBF核函数)

如前文所述，在创建/训练SVM时应考虑核函数及相关参数对模型性能的影响。这里采用默认的RBF核函数。首先利用交又验证方法寻找最佳的参数 $c$ (惩罚因子)和参数 $g$ (RBF核函数中的方差)，然后利用最佳的参数训练模型。值得一提的是，当模型的性能相同时，为了减少计算时间，优先选择惩罚因子 $c$ 比较小的参数组合，这是因为惩罚因子 $c$ 越大，最终得到的支持向量数将越多，计算量越大。具体程序如下:

% 寻找最佳c/g参数——交叉验证方法
[c,g] = meshgrid(-10:0.2:10,-10:0.2:10);
[m,n] = size(c);
cg = zeros(m,n);
eps = 10^(-4);
v = 5;
bestc = 1;
bestg = 0.1;
bestacc = 0;
for i = 1:m
    for j = 1:n
        cmd = ['-v ',num2str(v),' -t 2',' -c ',num2str(2^c(i,j)),' -g ',num2str(2^g(i,j))];
        cg(i,j) = svmtrain(train_label,Train_matrix,cmd);     
        if cg(i,j) > bestacc
            bestacc = cg(i,j);
            bestc = 2^c(i,j);
            bestg = 2^g(i,j);
        end        
        if abs( cg(i,j)-bestacc )<=eps && bestc > 2^c(i,j) 
            bestacc = cg(i,j);
            bestc = 2^c(i,j);
            bestg = 2^g(i,j);
        end               
    end
end
cmd = [' -t 2',' -c ',num2str(bestc),' -g ',num2str(bestg)];
% 创建/训练SVM模型
model = svmtrain(train_label,Train_matrix,cmd);

4. SVM仿真测试

%% SVM仿真测试
[predict_label_1,accuracy_1] = svmpredict(train_label,Train_matrix,model);
[predict_label_2,accuracy_2] = svmpredict(test_label,Test_matrix,model);
result_1 = [train_label predict_label_1];
result_2 = [test_label predict_label_2];

5. 结果展示

%% 绘图
figure
plot(1:length(test_label),test_label,'r-*')
hold on
plot(1:length(test_label),predict_label_2,'b:o')
grid on
legend('真实类别','预测类别')
xlabel('测试集样本编号')
ylabel('测试集样本类别')
string = {'测试集SVM预测结果对比(RBF核函数)';
          ['accuracy = ' num2str(accuracy_2(1)) '%']};
title(string)

结果如下：

由于训练集和测试集是随机产生的，所以程序每次运行的结果都会不同。某次运行的测试集预测结果如下表所列。从表中可以清晰地看到，只有样本5和7和13预测错误，测试集的预测正确率达到88.46%(23/26)。且如前文所述，乳腺癌、纤维腺瘤和乳腺病(标签分别为1、2和3)为病变组织,乳腺组织、结缔组织和脂肪组织(标签分别为4、5、6)为正常组织，若仅判断为病变组织或正常组织(即二分类)，则样本5和7判断正确(将乳腺癌诊断为纤维腺瘤，同为病变组织)，预测正确率将达到96.15%(25/26)，这也从另外一个角度体现了SVM用于二分类的优越性。