Libsvm Java

最新推荐文章于 2021-02-24 11:04:19 发布

weixin_30679823

最新推荐文章于 2021-02-24 11:04:19 发布

阅读量70

点赞数

原文链接：http://www.cnblogs.com/yingying7/p/9761101.html

版权

在java环境下用Libsvm包解决一个多分类问题。

1、将训练数据和测试数据按照libsvm的数据格式存放

可以写程序直接构造，libsvm的数据格式如下

Label 1:value 2:value ….

其中1、2是特征的序号，后面跟的是该特征值。当特征值为0的时候，可以省略不写，也就是说特征序号可以不连续。如-15 1:0.708 3:-0.3333.....

2、用svm-scale对数据进行归一化处理

之前一直训练失败的原因主要是没有对数据进行缩放，svm-scale.exe在libsvm包里windows文件夹里，作用是对数据进行缩放，防止某个特征过大或过小，从而在训练中起的作用不平衡。

下图是可选参数，-l后面跟数据归一化的下界，-u后面跟数据归一化的上界。

具体用法

这里设置的归一化上下界为0和1，svmTrainData.txt是原始训练数据，将缩放后的数据保存到train.scale。

注意训练数据和测试数据都要做归一化处理。

3、用网格搜索（grid search）寻找最优参数

libsvm包的tools文件夹下有一个grid.py文件，可以对训练数据进行参数寻优。

先介绍一下svm_train的各项可选参数：

-s svm类型：SVM设置类型（默认0)
0 — C-SVC； 1 –v-SVC； 2 – 一类SVM； 3 — e-SVR； 4 — v-SVR
-t 核函数类型：核函数设置类型（默认2）
　　　　0 – 线性核函数：u’v
　　　　1 – 多项式核函数：（r*u’v + coef0)^degree
　　　　2 – RBF(径向基)核函数：exp(-r|u-v|^2）
　　　　3 – sigmoid核函数：tanh(r*u’v + coef0)
-d degree：核函数中的degree设置（针对多项式核函数）（默认3）
-g r(gamma）：核函数中的gamma函数设置（针对多项式/rbf/sigmoid核函数）（默认1/k，k为总类别数)
-r coef0：核函数中的coef0设置（针对多项式/sigmoid核函数）（（默认0)
-c cost：设置C-SVC，e -SVR和v-SVR的参数（损失函数）（默认1）
-n nu：设置v-SVC，一类SVM和v- SVR的参数（默认0.5）
-p p：设置e -SVR 中损失函数p的值（默认0.1）
-m cachesize：设置cache内存大小，以MB为单位（默认40）
-e eps：设置允许的终止判据（默认0.001）
-h shrinking：是否使用启发式，0或1（默认1）
-wi weight：设置第几类的参数C为weight*C (C-SVC中的C) （默认1）
-v n: n-fold交互检验模式，n为fold的个数，必须大于等于2

网格寻优找的主要是最优的gamma和cost。在使用grid.py之前得先装一个绘图工具gnuplot。具体使用方法可以参考博客https://blog.csdn.net/u014772862/article/details/51829727

4、训练和测试

获得归一化的数据以及找到最优参数后就可以进行svm训练了。训练和测试的java代码很简单：

public static void main(String[] args) throws IOException {
    String[] arg = {"-c","2.0","-g","0.03125","D:/MnistDatabase/svm/train.scale","D:/MnistDatabase/svm/svmModel.txt" };
    String[] parg = {"D:/MnistDatabase/svm/test.scale","D:/MnistDatabase/svm/svmModel.txt" ,"D:/MnistDatabase/svm/svmPredict.txt"};
    System.out.println(".........svm运行开始.........");
    svm_train t = new svm_train();
    svm_predict p= new svm_predict();
    t.main(arg);
    p.main(parg);
}

svmModel.txt存放的是训练好的svm模型，模型中各参数的意义可以参考这篇博客https://blog.csdn.net/zhaoluruoyan89/article/details/78342101

转载于:https://www.cnblogs.com/yingying7/p/9761101.html