现在已经完全正确的调用了libsvm,我所处理的问题是利用libsvm进行文本分类
1 首先利用CHI进行特征提取
2 利用TFIDF进行权重提取
3 把文章组织成libsvm可以识别的格式
4 利用上面的三个步骤,就可以把数据传入libsvm进行训练,但是训练之前,还要进行参数调优,得到最好的c和g
5 参数调优的过程就是利用 python grid.py heart_scale 这个命令,具体配置过程网上已有很多教程
6 利用最有参数进行训练,然后就会生成一个model,随后就可以进行预测了。
7 利用上面的过程,在开放测试集上libsvm在我所用的数据集上对于二分类问题准确率和召回率都在81.5%左右,但是在多分类(11分类)中,准确率和召回率只有20%左右
8 经过研究发现,libsvm利用one aginst one 进行多分类的,这样就会有k*(k-1)/2 个分类器,但是libsvm只有一个参数c和g的设置,这样对于每个分类器,是不是不能找到最好的 参数? 是不是因为这个影响了分类的效率?
9 libsvm进行多分类的策略是不是可以改变?我还没有发现接口函数
10 我是想在外部模拟实现one-aginst-one,对于每个分类器都调用正确的c和g参数,但是这样的代价就太大了,要训练很多的分类器?
好多问题得不到解决啊。。