weka java tfidf_科学网-weka中使用TFIDF进行特征选择-李向东的博文

我首先对训练集进行了中文分词处理,在不做特征选择的情况下,只进行向量化处理:

weka.filters.unsupervised.attribute.StringToWordVector in:9804

Number of instances: 9804

Number of attributes: 9302

产生的arff文件大约30M.

使用TFIDF进行特征选择,仍然使用这个训练集,代码很简单:

StringToWordVector filter = new StringToWordVector();

filter.setStemmer( new NullStemmer() );

filter.setInputFormat(dataRaw);

filter.setTFTransform(true);

filter.setIDFTransform(true);

filter.setMinTermFreq(5);

filter.setWordsToKeep(500);

结果:

weka.filters.unsupervised.attribute.StringToWordVector in:9804

Number of instances: 9804

Number of attributes: 3540

产生的arff文件大约41M. 这个arff文件可以用来训练NaiveBayes或SMO等分类模型。

但需注意,用某种训练好的分类模型进行分类时,被测对象应该使用相同的量化方法,否则双方属性不同,weka会出错,如“Src and Dest differ in # of attributes!!”。

转载本文请联系原作者获取授权,同时请注明本文来自李向东科学网博客。

收藏

分享

分享到:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值