libsvm-3.12中的tools中的README

最新推荐文章于 2021-11-18 21:34:57 发布

kebiowen

最新推荐文章于 2021-11-18 21:34:57 发布

阅读量727

点赞数 1

分类专栏： libsvm 文章标签： library 多线程

libsvm 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

这个目录包括一些有用的代码：
1.子集选择工具
2.参数选择工具
3.LIBSVM格式检查工具

第一部分：子集选择工具

介绍
============
训练大规模数据是很耗时的。有时应该先用一个小一点的子集来操作。subset.py这个python脚本随机选择一定数量的样本。对于分类数据，我们提供一个分类的筛选来确保每类都有一样的分布。

用法：subset.py [options] dataset number [output1] [output2]

这个脚本选择一个给定数据集的子集。

options:

-s method : 选择方法（默认为0）

0 -- 分类选择（只对分类有效）

1 -- 随机选择

output1 : 子集（可选）

output2 : 数据集的剩余部分（可选）

如果 output1 省略，子集将会被打印在屏幕上。

例子

============

> python subset.py heart_scale 100 file1 file2

从 heart_scale 文件随机筛选 100 个样本并存储在 file1 中。所有剩下的实例存储在 file2 中。

第二部分：参数选择工具

介绍

============

grid.py 是一个为使用RBF（径向基函数）为核函数的 C-SVM 的分类问题参数选择工具。它使用交叉验证（CV）技术来评估每一个参数组合的精度并帮助你为你的程序决定最佳的参数，参数的范围是确定的。

grid.py 为交叉验证直接执行 libsvm 二进制文件（所以不需 python 的结合）并用 gnuplot 画出 CV 精度的等高线图。你在使用它之前必须安装好 libsvm 和 gnuplot 。
gnuplot 程序包可在 http://www.gnuplot.info/ 获得。

在 Mac 操作系统上,预编译的 gnuplot 文件需要 Aquarterm 库，它也必须安装好。
另外，此 gnuplot 的版本不支持 png ，所以你需要改变为 "set term png transparent small"
并用其他图片格式。例如，你可能 "set term pbm small color"。

用法: grid.py [-log2c begin,end,step] [-log2g begin,end,step] [-v fold]

[-svmtrain pathname] [-gnuplot pathname] [-out pathname] [-png pathname]

[additional parameters for svm-train] dataset

这个程序用参数 C （和 gamma） = 2^begin, 2^(begin+step), ..., 2^end 执行 v-fold 交叉验证。

你可以用 -svmtrain 和 -gnuplot 参数来指定指定 libsvm 的执行和 gnuplot 的使用。

对于 windows 用户，请使用 pgnuplot.exe。如果你正在使用 gnuplot 3.7.1，请升级至 3.7.3 版本或更高。3.7.1 版本有一个 bug 。如果你使用 windows的 cygwin ，请使用 gunplot-x11 。

例子

============

> python grid.py -log2c -5,5,1 -log2g -4,0,1 -v 5 -m 300 heart_scale

用户（尤其是 MS Windows 用户）可能需要指定可执行文件的路径。你可以改变在 grid.py 运行开始时的路径也可以在命令行下指定它们。例如，

> grid.py -log2c -5,5,1 -svmtrain "c:\Program Files\libsvm\windows\svm-train.exe" -gnuplot c:\tmp\gnuplot\binary\pgnuplot.exe -v 10 heart_scale

Output: 两个文件