SVM学习过程（二）-libsvm使用

yan_tai123

于 2020-05-23 16:25:35 发布

阅读量335

点赞数

分类专栏： matlab 文章标签： libsvm

本文链接：https://blog.csdn.net/sduvec/article/details/106295046

版权

matlab 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

libsvm安装好后，推荐阅读guide-A Practical Guide to Support Vector Classification。全英文的，不过还好懂。

阅读Guide

简单来讲，里面说了一些新手开车注意事项。
新手使用libsvm的一般步骤：

把数据转化为libsvm规定的格式
数据缩放
考虑使用RBF 核函数
交叉验证找到最优参数
用最优参数训练数据
预测

数据格式

libsvm工具包使用的数据有特殊的格式。以heart-scale为例来说，每一行是一组数据。第一列是标签，后面是数据。格式就是：
label index1：data1 index2:data2 …
为什么要加index呢？如果该数据为0就跳过了，我猜可能是为了简化数据吧。比如稀疏矩阵用这种表达方式是很好的。
网站上 https://www.csie.ntu.edu.tw/~cjlin/libsvm/，有好多数据可以下载，大部分都是按这个格式整理好的。
整理好的数据可以直接用函数 libsvmread读取。读取结果就是两个主要值，一个标签一个数据。
如果是自己的数据就可以不用这样整理了，直接读取到两个数据结果就行。

数据缩放

为什么要缩放？
guide里给出了原因，避免数值大的数据过度影响数值小的数据。另外一个考虑是减少计算上的困难。因为内核值的计算经常依赖于特征向量的内积，数值小了好计算。

确定数据范围
缩放到【-1，1】或【0，1】，也可以自定义范围如[-10, 18]都可以。

注意要把测试数据同比例缩放。如果是分类，标签就不要缩放了。如果是回归，标签也要随之缩放。

模型选择

有四种常见的内核，Linear， polynomial， RBF （radial basisi function）, sigmoid.

此处优先选择RBF kernel .
为什么？guide里也说了，第一个原因是RBF kernel 把数据映射到高维空间，当标签和数据之间是非线性关系时处理的更好。并且线性kernel是RBF kernel 的一个特例。第二个原因是超参数个数影响模型选择，多项式kernel的超参个数比RBF 多。

RBF模型中有两个重要参数 $C$ 和 $\gamma$ 。下面就是为这两个参数选择最优值。

交叉验证参数寻优：

交叉验证的方法：将训练数据分为v部分，用v-1部分训练，第v部分用来测试。

用Grid search方法，将两个参数各自在一定范围内变化，寻找最优的组合。
有个grid.py 文件就是用来干这个的。运行完了就直接给出最优的参数。

预测

找一组数据预测一下。

[predict_label,accuracy,dec_values] = svmpredict(label_test, data_test,model);

例子

clc,clear;
load bearing;
%随机打乱并按照比例分成训练数据和测试数据
p = randperm(size(train_data,1));
rand_data = Y(p,:);
rand_label = train_label(p,:);

selectn = size(rand_data,1)*0.6;
%训练数据和标签
rand_data_train = rand_data(1:selectn,:);
rand_label_train = rand_label(1:selectn,:);
%测试数据和标签
rand_data_test = rand_data(selectn+1:end,:);
rand_label_test = rand_label(selectn+1:end,:);
%选择c & g 参数
% [bestacc,bestc,bestg] = SVMcg(rand_label_train,rand_data_train,-2,4,-4,4,3,0.5,0.5,0.9);
%训练模型及预测
% cmd = ['-c ',num2str(bestc),' -g ',num2str(bestg)];
% model = svmtrain(rand_label_train, rand_data_train, cmd);
model = svmtrain(rand_label_train, rand_data_train,'-t 2');
% -t = 2 选择径向基函数核 
%  -c 20 -g 14
[predict_label,accuracy,dec_values] = svmpredict(rand_label_test,rand_data_test,model);

我这预测的准确率有点低，汗~~

optimization finished, #iter = 6
nu = 0.214199
obj = -3.489757, rho = 0.068160
nSV = 8, nBSV = 5
Total nSV = 72
Accuracy = 39.5833% (19/48) (classification)