liblinear 与libsvm选择

最新推荐文章于 2017-03-06 00:18:50 发布

juary_01

最新推荐文章于 2017-03-06 00:18:50 发布

阅读量730

点赞数

分类专栏：论文

论文专栏收录该内容

23 篇文章 0 订阅

订阅专栏

1、转自： http://blog.sina.com.cn/s/blog_5b29caf701015ra0.html

liblinear的好处就是速度快，尤其是对稀疏的特征。缺点就是太吃内存了。10G的数据量需要接近50G的内存，数据量再大就没法做了

大数据量的可以用svmperf，也很快，耗内存少，精度嘛，不好比较。。

对于LibSVM:

何时使用线性核而非RBF核

■ 样本数远小于特征数

例如生物学数据，70多个样本，7000多个特征

■ 样本数和特征数都很大

例如文本分类，2万多样本，4万多特征

■ 样本数远大于特征数

该情况作者并非推荐使用线性核，只是用来对比LibLinear和LibSVM的计算速度

2、转自： http://blog.sina.com.cn/s/blog_5b29caf7010127vh.html

有关Liblinear和Libsvm各自的优势可以归纳如下：

1.libsvm用来就解决通用典型的分类问题

2.liblinear主要为大规模数据的线性模型设计

it can be able to handle large-scaled dataset 可以用来处理大规模的数据
it runs really faster than libsvm because it doesn't have to compute thekernel for any two points 由于采用线性核,所以不需要计算kernel value,速度更快
trust region method for optimization looks new for machine learning people

以下为一位网友采用liblinear进行数据分类的实验性能说明“

”今天试用了以下liblinear，速度很快（快到我没有想到），
我的实验数据：
训练集：21504 * 1500（1500是样本的数量，21504是维度）
测试集：21504 * 2985
速度用秒来衡量，20次实验总共不到2分钟。

同样的问题我用了libsvm实验速度上相差太大，libsvm实验5次，每次将近10分钟，时间是其次，发现一个问题就是，libsvm比liblinear的结果相差1个百分点，没有读liblinear的文章，不知道问题出在那个地方，libsvm我直接用的默认参数，线性模型。这样必然引起一个问题，如果我想评价线性模型和非线性模型的性能，我不可能一个用liblinear一个用libsvm,如果两个都用libsvm，报告的性能肯定有一些问题。

所以如果你的问题维度很大（线性模型就有非常好的性能），不妨考虑liblinear. “

大致看了一下libsvm和liblinear的说明文档，发现一个问题就是在线性问题上两者的目标函数就不一样，所以性能上的差异是正常的，应该说如果优化同一样的目标函数两者性能应该会差不多，但是速度很明显，liblinear快很多。

对于什么时候用线性模型的问题，我想上面的我举的例子用linear classifier就比较好，非线性分类不一定比线性分类器好，尤其是在样本及其有限，同时特征维度很高的情况下，因为样本有限的情况下，kernel map通常不准确，很有可能错误地划分类别空间，可能造成比线性模型更差的结果。

说到scale，我建议不要用libsvm里自带的scale，因为一旦使用这个工具，它就会把原来稀疏的数据，变成非稀疏的格式，这样不但会生成非常大的数据文件，而且liblinear对稀疏数据快速处理的优势就不能体现出来了。因此，要scale，就自己写一个，以保持原来稀疏的格式

liblinear的好处就是速度快，尤其是对稀疏的特征。缺点就是太吃内存了。10G的数据量需要接近50G的内存，数据量再大就没法做了。

另外，还有一个经常提到的svm库SVM-per：http://www.cs.cornell.edu/people/tj/svm_light/svm_perf.html 是康奈尔大学的人设计的。好像对计算机硬件的性能要求比liblinear要低...有做图像处理的人使用这个svm-per代替liblinear。

另外，对于多分类问题以及核函数的选取，以下经验规则可以借鉴：

如果如果特征数远远大于样本数的情况下,使用线性核就可以了.
如果特征数和样本数都很大,例如文档分类,一般使用线性核, LIBLINEAR比LIBSVM速度要快很多.
如果特征数远小于样本数,这种情况一般使用RBF.但是如果一定要用线性核,则选择LIBLINEAR较好,而且使用-s 2选项。

对于多分类问题：

对于15类场景来说，每类100幅训练图像，如果直接训练一个15类的multi-class classifier，则训练文件的Label值取1～15，wi标记不用指定（default 1）。如果对于每个类单独训练一个分类器，这样就把这个类的100幅图像作为正样本（假设Label=1），而其余所有的训练图像作为负样本（共1400幅，假设Label=-1），由此可以看出正负样本不平衡，因此应该制定wi选项，具体地可以指定-w1 14，-w-1 1( 1是缺省值），在cross validation的时候首先指定-wi，然后通过grid.py来确定(C,g)的最优值。实际做实验的时候，可以具体比较一下两种情况到底有多大差别。

3、转自:http://blog.csdn.net/zhoubl668/article/details/7624350

关于Libsvm，台湾大学林智仁这样描述它："LIBSVM is an integrated software for support vector classification, (C-SVC, nu-SVC), regression (epsilon-SVR, nu-SVR) and distribution estimation (one-class SVM). It supports multi-class classification."即Libsvm是一个整合了支持向量机(C-SVC, nu-SVC)、回归、分布估计(one-class SVM)的软件。并且支持多类别的分类。而对于LIblinear，官网上是这样介绍的：”LIBLINEAR is a linear classifier for data with millions of instances and features“，即主要专门为百万级别的数据和特征实现的线性分类器。

他们两个都是用来做分类的，相对来说Libsvm应用的范围较广，而Liblinear主要用于处理大数据量的训练过程。在什么样的情况下，该选择Liblinear而不是Libsvm呢？作者给出几点建议：

当你面对海量的数据时，这里的海量通常是百万级别以上。海量数据分为两个层次：样本数量和特征的数量。
使用线性和非线性映射训练模型得到相近的效果。
对模型训练的时间效率要求较高。

在这类情况下，建议你使用Liblinear，而不是libsvm。文本分类是最典型的例子，文本分类的样本量非常多，而且特征的维度也是很高，从几千-几百万的数量级，因此在做文本方面的分类时最好选择liblinear。作者给出一个例子，对比liblinear与libsvm训练效果与时间效率。数据总共包含20,242样本，每个样本都包含47,236 个特征。

[plain]view plaincopy 
    
 
    
 % time libsvm-2.85/svm-train -c 4 -t 0 -e 0.1 -m 800 -v 5 rcv1_train.binary  
 Cross Validation Accuracy = 96.8136%  
 345.569s  
 % time liblinear-1.21/train -c 4 -e 0.1 -v 5 rcv1_train.binary  
 Cross Validation Accuracy = 97.0161%  
 2.944s  

juary_01

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
liblinear 与libsvm选择

1、转自： http://blog.sina.com.cn/s/blog_5b29caf701015ra0.htmlliblinear的好处就是速度快，尤其是对稀疏的特征。缺点就是太吃内存了。10G的数据量需要接近50G的内存，数据量再大就没法做了大数据量的可以用svmperf，也很快，耗内存少，精度嘛，不好比较。。对于LibSVM:何时使用线性核而非RBF核
复制链接

扫一扫