libsvm中tools(easy.py,subset.py,grid.py,checkdata.py)的使用

最新推荐文章于 2024-09-26 14:55:55 发布

cowboy_wz

最新推荐文章于 2024-09-26 14:55:55 发布

阅读量5.9k

点赞数

分类专栏： svm研究文章标签： tools python classification training 测试工具

svm研究专栏收录该内容

15 篇文章 0 订阅

订阅专栏

这几天在用libsvm(2.8.6)中的一些工具,总结一下.

libsvm的一些工具还是非常有用的,1.可以调用subset.py将你的样本集合按你所想要的比例进行抽样出两个子样本集合.2.还可以调用grid.py做关于(C,gamma)的交叉验证参数选择,可以轻松的搜索到最好的参数对(C,gamma).3.还可以调用easy.ph一步到位完成svm的整个挖掘过程,最后得出交叉验证精度,最有参数对和测试集上的测试精度.4.还可以调用checkdata进行检查你的数据格式是否有错误.这些操作可以让大伙省事很多.

libsvm(2.8.6)中主要有四个工具:easy.py,subset.py,grid.py,checkdata.py.

运行环境要求和设置:

需要准备两个工具.

一个工具是:python编译环境,这个到网上下一个来安装就好了(注意要设置环境变量path),下载python.exe 2.5.1; 另一个工具就是gnuplot.exe,到网上下一个,我用的是版本4.2的,下载gnuplot.exe 安装完上面的软件还不能运行,还要修改easy.py,grid.py的设置.将他们对应的代码" gnuplot_exe = r"c:/tmp/gnuplot/bin/pgnuplot.exe""都改为你的pgnuplot.exe所在的路径,

比如我的文件在当前目录的上一级目录,就是和tools文件夹在同一级目录,那么我的设置应该为" gnuplot_exe = r"../gnuplot/bin/pgnuplot.exe"".

这样设置就完成了,我们只需要到控制台下运行上面相应的四个程序即可.

注意:下面的python命令中,我们默认所有需要处理的样本数据集都是放在在tools目录下,如果数据文件不在tools目录下则我们需要用绝对路径指定数据的位置.

下面分别介绍调用格式:

从其文档可以发现其功能分别为:

(1) easy.py:只要简单输入,就可以完成svm挖掘的所有步骤,即:

1. Conduct simple scaling on the data

2.Consider the RBF kernel K(x; y)

3.Use cross-validation to nd the best parameter C and

4.Use the best parameter C and to train the whole training set

5.Test

对于初学者而言这个文件无非是他们的救命稻草,可以简单看看他的语法:

在控制台下走到easy.py所在的目录下:

$ python easy.py train.3 test.3

Scaling training data...归一化数据

Cross validation...在训练集上做交叉验证

Best c=128.0, g=0.125 CV rate=88.9186 (通过网格搜索法对每个参数对做交叉验证,选择交叉验证精度最高所对应的参数.)

Training...( 将上面得到的参数对在训练集合上做模型训练)

Output model: crttrain.model (保存模型到文件)

Scaling testing data... (归一化数据)

Testing...(用训练得出的模型对测试集进行测试)

Accuracy = 87.8049% (36/41) (classification)(测试的精度)

Output prediction: crttest.predict (输出预测结果)

(在交叉验证过程中,会有一个图形界面显示参数选择的情况,這就是gnuplot.exe的作用了)

(2).grid.py:用于做交叉验证,选择最好的参数对.

用法:

在控制台下走到grid.py所在的目录下:

$python grid.py crttrain

[local] 5 -7 86.9186 (best c=32.0, g=0.0078125, rate=86.9186)

[local] -1 -7 85.1744 (best c=32.0, g=0.0078125, rate=86.9186)

[local] 5 -1 77.0349 (best c=32.0, g=0.0078125, rate=86.9186)

.......

[local] 13 -15 85.1744 (best c=32.0, g=0.0078125, rate=86.9186)

[local] 13 3 55.5233 (best c=32.0, g=0.0078125, rate=86.9186)

[local] 13 -9 83.1395 (best c=32.0, g=0.0078125, rate=86.9186)

[local] 13 -3 79.6512 (best c=32.0, g=0.0078125, rate=86.9186)

32.0 0.0078125 86.9186 (c=32,gamma=0.0078125 交叉验证精度)

(3) subset.py 用于按个数分割样本集成训练集和测试集.

用法:

在控制台下走到subset.py所在的目录下:

$python subset.py crt 100 crttrain crttest

参数说明:

crt:样本集合;

100:训练集样本个数;

crttrain:存储100个训练样本;

crttest:存储剩下的样本集做为测试集;

如果成功没有输出信息,反之则有错误提示.

(4) checkdata.py 用于检测样本集存储格式是否正确

在控制台下走到subset.py所在的目录下:

$python checkdata.py crt

No error. (表示没有错)

转贴：原链接已失效

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

cowboy_wz CSDN认证博客专家 CSDN认证企业博客

码龄19年

360: 原创

5万+: 周排名

85万+: 总排名

322万+: 访问

: 等级

3万+: 积分

2004: 粉丝

429: 获赞

322: 评论

1334: 收藏

私信

关注

热门文章

分类专栏

java 学习 18篇
mat_lab 51篇
svm研究 15篇
TEX之路 6篇
探知索识 55篇
数学王国 31篇
数据挖掘 60篇
文本分类 61篇
机器学习 82篇
知识梳理 35篇
知识网格 31篇
科研之路 97篇
算法描述 22篇
问题集锦 57篇

最新评论

粗糙集理论
冲击文: C是属性的子集
如何快速切换静态和动态ip
粒子白: 可以用感谢
Attempt to execute SCRIPT plot as a function?
qq_33859558: 谢谢~
一稿多投与重复发表
逯先生。: 老师您好我想问一下，我想给B期刊投稿，但是因操作失误投到了A期刊那里，并且我知编辑的信是写的B期刊的。我立马给编辑和该期刊发送电子邮件说明情况请求撤销该次投稿，在没得到他们回复之前，我继续投B期刊算一稿多投吗？
手机、数码相机数据丢失恢复方法汇总
dintc: 需要恢复的卡暂时不要存入新的文件，可以用读卡器连接到电脑，再用 AornData 恢复里面的文件。

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。