SVM学习过程(二)-libsvm使用

libsvm安装好后,推荐阅读guide-A Practical Guide to Support Vector Classification。全英文的,不过还好懂。

阅读Guide

简单来讲,里面说了一些新手开车注意事项。
新手使用libsvm的一般步骤:

  • 把数据转化为libsvm规定的格式
  • 数据缩放
  • 考虑使用RBF 核函数
  • 交叉验证找到最优参数
  • 用最优参数训练数据
  • 预测

数据格式

libsvm工具包使用的数据有特殊的格式。以heart-scale为例来说,每一行是一组数据。第一列是标签,后面是数据。格式就是:
label index1:data1 index2:data2 …
为什么要加index呢?如果该数据为0就跳过了,我猜可能是为了简化数据吧。比如稀疏矩阵用这种表达方式是很好的。
网站上 https://www.csie.ntu.edu.tw/~cjlin/libsvm/,有好多数据可以下载,大部分都是按这个格式整理好的。
整理好的数据可以直接用函数 libsvmread读取。读取结果就是两个主要值,一个标签一个数据。
如果是自己的数据就可以不用这样整理了,直接读取到两个数据结果就行。

数据缩放

为什么要缩放?
guide里给出了原因,避免数值大的数据过度影响数值小的数据。另外一个考虑是减少计算上的困难。因为内核值的计算经常依赖于特征向量的内积,数值小了好计算。

确定数据范围
缩放到【-1,1】或【0,1】,也可以自定义范围如[-10, 18]都可以。

注意要把测试数据同比例缩放。如果是分类,标签就不要缩放了。如果是回归,标签也要随之缩放。

模型选择

有四种常见的内核,Linear, polynomial, RBF (radial basisi function), sigmoid.

此处优先选择RBF kernel .
为什么?guide里也说了,第一个原因是RBF kernel 把数据映射到高维空间,当标签和数据之间是非线性关系时处理的更好。并且线性kernel是RBF kernel 的一个特例。第二个原因是超参数个数影响模型选择,多项式kernel的超参个数比RBF 多。

RBF模型中有两个重要参数 C C C γ \gamma γ。下面就是为这两个参数选择最优值。

交叉验证参数寻优:

交叉验证的方法:将训练数据分为v部分,用v-1部分训练,第v部分用来测试。

用Grid search方法,将两个参数各自在一定范围内变化,寻找最优的组合。
有个grid.py 文件就是用来干这个的。运行完了就直接给出最优的参数。

预测

找一组数据预测一下。

[predict_label,accuracy,dec_values] = svmpredict(label_test, data_test,model);

例子

clc,clear;
load bearing;
%随机打乱并按照比例分成训练数据和测试数据
p = randperm(size(train_data,1));
rand_data = Y(p,:);
rand_label = train_label(p,:);

selectn = size(rand_data,1)*0.6;
%训练数据和标签
rand_data_train = rand_data(1:selectn,:);
rand_label_train = rand_label(1:selectn,:);
%测试数据和标签
rand_data_test = rand_data(selectn+1:end,:);
rand_label_test = rand_label(selectn+1:end,:);
%选择c & g 参数
% [bestacc,bestc,bestg] = SVMcg(rand_label_train,rand_data_train,-2,4,-4,4,3,0.5,0.5,0.9);
%训练模型及预测
% cmd = ['-c ',num2str(bestc),' -g ',num2str(bestg)];
% model = svmtrain(rand_label_train, rand_data_train, cmd);
model = svmtrain(rand_label_train, rand_data_train,'-t 2');
% -t = 2 选择径向基函数核 
%  -c 20 -g 14
[predict_label,accuracy,dec_values] = svmpredict(rand_label_test,rand_data_test,model);

我这预测的准确率有点低,汗~~

optimization finished, #iter = 6
nu = 0.214199
obj = -3.489757, rho = 0.068160
nSV = 8, nBSV = 5
Total nSV = 72
Accuracy = 39.5833% (19/48) (classification)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值