使用LIBSVM需要注意的几个问题_svm一直在运行-CSDN博客

本文分享了LIBSVM训练过程中的四个实用技巧：避免同时使用-b1和-v选项以减少训练时间；检查文件路径及数据格式确保正确读取；特征数量过多时建议先进行特征选择；以及不同场景下如何选择合适的核函数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.LIBSVM训练的时候，最好不要使用-b 1 选项，否则的话会使训练时间过长。在LIBSVM的FAG中有一条就是回答这个问题的.
Q: Why traing a probability model (i.e., -b 1) takes longer time?
A: To construct this probability model, we internally conduct a cross validation, which is more time consuming than a regular training. Hence, in general you do parameter selection first without -b 1. You only use -b 1 when good parameters have been selected. In other words, you avoid using -b 1 and -v together.

2.有时候，LIBSVM在训练的时候，表现为一直在运行，但是没有任何输出，这种情况下首先要检查给定的文件路径和文件名对不对，若没有问题，然后仔细检查数据格式是否满足要求。前几天训练的时候就出现了这种情况，我还以为可能由于训练集比较大，一直在训练所以没有输出，后来才发现原来文件的路径给错了，LIBSVM竟然没有报错！

3.在A Practical Guide to Support Vector Classification的Discussion提到：Our experience indicates that the procedure works well for data which do not have many features. If there are thousands of attributes, there may be a need to choose a subset of them before giving the data to SVM.
也就是说,如果特征数太多的情况下,最好首先进行特征选择,否则结果不能保证最优. 这篇文战的附录B提到了三种情况.
如果如果特征数远远大于样本数的情况下,使用线性核就可以了.
如果特征数和样本数都很大,例如文档分类,一般使用线性核, LIBLINEAR比LIBSVM速度要快很多.
如果特征数远小于样本数,这种情况一般使用RBF.但是如果一定要用线性核,则选择LIBLINEAR较好,而且使用-s 2选项。

4.对于15类场景来说，每类100幅训练图像，如果直接训练一个15类的multi-class classifier，则训练文件的Label值取1～15，wi标记不用指定（default 1）。如果对于每个类单独训练一个分类器，这样就把这个类的100幅图像作为正样本（假设Label=1），而其余所有的训练图像作为负样本（共1400幅，假设Label=-1），由此可以看出正负样本不平衡，因此应该制定wi选项，具体地可以指定-w1 14，-w-1 1( 1是缺省值），在cross validation的时候首先指定-wi，然后通过grid.py来确定(C,g)的最优值。实际做实验的时候，可以具体比较一下两种情况到底有多大差别。