libsvm3.22——使用指南

关于libsvm的使用,官方文档和matlab中文论坛大神faruto已经写得很明白,针对libsvm3.22版本稍稍有一点需要改进的。

参考来源:

网址:http://www.csie.ntu.edu.tw/~cjlin/libsvm/

参考文档:《A practical guide to SVM classification》

matlab中文论坛: http://www.matlabsky.com/thread-10966-1-1.html


具体步骤如下:

(1)数据的处理:

LIBSVM使用的数据格式
该软件使用的训练数据和检验数据文件格式如下:
<label><index1>:<value1> <index2>:<value2> ...
其中<label> 是训练数据集的目标值,对于分类,它是标识某类的整数(支持多个类);对于回归,是任意数。<index> 是以1开始的整数,可以是不连续的;<value>为实数,也就是我们常说的自变量。检验数据文件中的label只用于计算准确度或误差,如果它是未知的,只需用一个数填写这一栏,也可以空着不填。在程序包中,还包括有一个训练数据实例:heart_scale,方便参考数据文件格式以及练习使用软件。

例如:+1 1:0.708 2:1 3:1 4:-0.320 5:-0.105 6:-1 8:1.21


(2)缩放数据:

svmscale [-l lower] [-u upper] [-y y_lowery_upper] [-s save_filename] [-r restore_filename] filename;

缺省值: lower = -1,upper = 1,没有对y进行缩放

其中,
-l:数据下限标记;lower:缩放后数据下限;
-u:数据上限标记;upper:缩放后数据上限;
-y:是否对目标值同时进行缩放;y_lower为下限值,y_upper为上限值;
-s save_filename:表示将缩放的规则保存为文件save_filename;
-r restore_filename:表示将缩放规则文件restore_filename载入后按此缩放;
filename:待缩放的数据文件(要求满足前面所述的格式)。

数据集的缩放结果在此情况下通过DOS窗口输出,当然也可以通过DOS的
文件重定向符号“>”将结果另存为指定的文件。

(缩放规则文件可以用文本浏览器打开,看到其格式为:
lower upper
lval1 uval1
lval2 uval2
其中的lower 与upper 与使用时所设置的lower 与upper 含义相同;index 表
示特征序号;lval 为该特征对应转换后下限lower 的特征值;uval 为对应于转换后上限upper 的特征值。)

使用实例:
例子一: svmscale –s train3.range train3>train3.scale
表示采用缺省值(即对属性值缩放到[ -1,1]的范围,对目标值不进行缩放)
对数据集train3 进行缩放操作,其结果缩放规则文件保存为train3.range,缩放集的缩放结果保存为train3.scale。
例子二: svmscale –r train3.range test3>test3.scale
表示载入缩放规则train3.range 后按照其上下限对应的特征值和上下限值线
性的地对数据集test3 进行缩放,结果保存为test3.scale。

此外,还可以使用matlab中的归一化方法比如mapminmax。


(3)(4)RBF核函数——求最优的C和  ——交叉验证+grid-search 。

一个工具:grid.py 。

具体使用见下一篇文章。 libsvm——参数优化工具grid.py的使用


(5)训练SVM。

Svmtrain的用法:model =svmtrain(training_label_vector, training_instance_matrix 

[, 'libsvm_options']);

training_label_vectorAn m by 1 vector of training labels (type mustbe double)

training_instance_matrixAn m by n matrix of m training instances with nfeatures.libsvm_options:可用的选项即表示的涵义非常多。这些参数设置可以按照SVM的类型和核函数所支持的参数进行任意组合,如果设置的参数在函数或SVM类型中没有也不会产生影响,程序不会接受该参数;如果应有的参数设置不正确,参数将采用默认值。

具体可用参数如下:

-s svm类型:SVM设置类型(默认0)
0 -- C-SVC
1 --v-SVC
2 – one-class-SVM
3 -- e -SVR
4 -- v-SVR
-t 核函数类型:核函数设置类型(默认2)
0 – 线性:u'*v
1 – 多项式:(gamma*u'*v + coef0)^degree
2 – RBF函数:exp(-gamma*|u-v|^2)  
3 –sigmoid:tanh(gamma*u'*v + coef0)
-d degree:核函数中的degree设置(默认3)
-g gamma:核函数中的g函数设置(默认1/ k) ,k是指输入数据中的属性数
-r coef0:核函数中的coef0设置(默认0)
-c cost:设置C-SVC,e-SVR和v-SVR的参数(默认1)
-n nu:设置v-SVC,one-class-SVM和v-SVR的参数(默认0.5)
-p e:设置e-SVR 中损失函数e的值(默认0.1)
-m cachesize:设置cache内存大小,以MB为单位(默认40)
-e e:设置终止准则中的可容忍偏差(默认0.001)
-h shrinking:是否使用启发式,0或1(默认1)

b 概率估计:是否计算SVC或SVR的概率估计,可选值0 或1(默认0);
-wi weight:设置第几类的参数C为weight´C(C-SVC中的C)(默认1)
-v n: n-fold交互检验模式


运行结果(在命令行中显示):
optimization finished, #iter = 1756
nu = 0.464223
obj = -551.002342, rho = -0.337784
nSV = 604, nBSV = 557
Total nSV = 604
其中,#iter为迭代次数;

nu 与前面的操作参数-n n 相同;

obj为SVM文件转换为的二次规划求解得到的最小值;

rho 为判决函数的常数项b;

nSV 为支持向量个数;

nBSV为边界上的支持向量个数;

Total nSV为支持向量总个数。

svmtrain返回一个model结构体(分类问题):

其中的参数意义为:http://www.matlabsky.com/thread-12649-1-1.html


返回结果model的含义:

-Parameters: parameters

       -nr_class: number of classes; = 2 for regression/one-class svm

       -totalSV: total #SV

       -rho: -b of the decision function(s) wx+b

       -Label: label of each class; empty for regression/one-class SVM

       -sv_indices: values in [1,...,num_traning_data] to indicate SVs in thetraining set

       -ProbA: pairwise probability information; empty if -b 0 or in one-classSVM

       -ProbB: pairwise probability information; empty if -b 0 or in one-classSVM

       -nSV: number of SVs for each class; empty for regression/one-class SVM

       -sv_coef: coefficients for SVs in decision functions

       -SVs: support vectors


(6)测试模型。

Svmpredict的用法:svmpredict [options]test_file model_file output_file;

options(操作参数):

-b probability_estimates:是否需要进行概率估计预测,可选值为0 或者1,默认值为0;


返回值含义:

predicted_label预测后得到的label

accuracy3 by 1的向量。包括(分类)准确率accuracy、均方误差mean

squared error、(回归)相关系数误差squared correlation coefficient (for regression)

而且squared correlation coefficient (for regression)越接近你越好,代表回归模型精度越高。



本文精华:

1、如果当前目录在libsvm下,那么就会调用libsvm的svmtrain,而自带的svmtrain的调用格式和libsvm的svmtrain的格式是不一样的,自带的格式是SVMStruct = svmtrain(‘训练矩阵’,‘训练标签’ 'Showplot',ShowplotValue, ...),而libsvm的格式需要把标签写在第一个参数,若想使用自带的,那么把libsvm的路径从搜索路径中删除,即set path然后remove,并且把当前目录切换到toolbox下。

2、不同版本有略微差异。比如安装3.22版本,svmpredict的返回值是三个。而教程上的是两个,导致无法得到结果。





  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值