使用LIBSVM需要注意的问题

最近使用SVM遇到了各种问题,记录下来便于以后查阅。

(1)样本不平衡问题两种解决方式: (1)使用参数-wi进行设置,样本少的权重大 (2)SMOTE算法复制小样本

(2)SVM的参数寻优三种方法(CV, GA和PSO),倾向于使用启发式搜索方法GA和PSO。

(3)若样本量比较大,运行时间过于缓慢,尝试使用Liblinear(http://www.csie.ntu.edu.tw/~cjlin/liblinear/)。




1.LIBSVM训练的时候,最好不要使用-b 1 选项,否则的话会使训练时间过长。在LIBSVM的FAG中有一条就是回答这个问题的.

Q: Why traing a probability model (i.e., -b 1) takes longer time?

A: To construct this probability model, we internally conduct a cross validation, which is more time consuming than a regular training. Hence, in general you do parameter selection first without -b 1. You only use -b 1 when good parameters have been selected. In other words, you avoid using -b 1 and -v together.

2.有时候,LIBSVM在训练的时候,表现为一直在运行,但是没有任何输出,这种情况下首先要检查给定的文件路径和文件名对不对,若没有问题,然后仔细检查数据格式是否满足要求。前几天训练的时候就出现了这种情况,我还以为可能由于训练集比较大,一直在训练所以没有输出,后来才发现原来文件的路径给错了,LIBSVM竟然没有报错!

3.在A Practical Guide to Support Vector Classification的Discussion提到:Our experience indicates that the procedure works well for data which do not have many features. If there are thousands of attributes, there may be a need to choose a subset of them before giving the data to SVM.

也就是说,如果特征数太多的情况下,最好首先进行特征选择,否则结果不能保证最优. 这篇文战的附录B提到了三种情况.

如果如果特征数远远大于样本数的情况下,使用线性核就可以了. 
如果特征数和样本数都很大,例如文档分类,一般使用线性核, LIBLINEAR比LIBSVM速度要快很多. 
如果特征数远小于样本数,这种情况一般使用RBF.但是如果一定要用线性核,则选择LIBLINEAR较好,而且使用-s 2选项。 
4.对于15类场景来说,每类100幅训练图像,如果直接训练一个15类的multi-class classifier,则训练文件的Label值取1~15,wi标记不用指定(default 1)。如果对于每个类单独训练一个分类器,这样就把这个类的100幅图像作为正样本(假设Label=1),而其余所有的训练图像作为负样本(共1400幅,假设Label=-1),由此可以看出正负样本不平衡,因此应该制定wi选项,具体地可以指定-w1 14,-w-1 1( 1是缺省值),在cross validation的时候首先指定-wi,然后通过grid.py来确定(C,g)的最优值。实际做实验的时候,可以具体比较一下两种情况到底有多大差别。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值