libsvm 多分类遇到的问题

现在已经完全正确的调用了libsvm,我所处理的问题是利用libsvm进行文本分类


1 首先利用CHI进行特征提取

2  利用TFIDF进行权重提取

3  把文章组织成libsvm可以识别的格式



4  利用上面的三个步骤,就可以把数据传入libsvm进行训练,但是训练之前,还要进行参数调优,得到最好的c和g

5  参数调优的过程就是利用  python grid.py heart_scale  这个命令,具体配置过程网上已有很多教程

6  利用最有参数进行训练,然后就会生成一个model,随后就可以进行预测了。

7  利用上面的过程,在开放测试集上libsvm在我所用的数据集上对于二分类问题准确率和召回率都在81.5%左右,但是在多分类(11分类)中,准确率和召回率只有20%左右


8  经过研究发现,libsvm利用one aginst one 进行多分类的,这样就会有k*(k-1)/2 个分类器,但是libsvm只有一个参数c和g的设置,这样对于每个分类器,是不是不能找到最好的      参数?  是不是因为这个影响了分类的效率?

9  libsvm进行多分类的策略是不是可以改变?我还没有发现接口函数

10  我是想在外部模拟实现one-aginst-one,对于每个分类器都调用正确的c和g参数,但是这样的代价就太大了,要训练很多的分类器?


好多问题得不到解决啊。。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值