收集好了训练样本集,需要对文本词语进行特征选择。
特征选择的意义有两个:
1.去掉噪音
去噪一个是去掉无意义的词,像只有几个文档出现过的词,或者每一个文档都出现的词。或者在很多类别里面都存在的词,其实都没有太大的意义。因为这些词对分类的结果起不到太大的作用。
2.降低维度
降维的作用主要是减少运算复杂度,加快运算速度。如果是自己的电脑一般也不会配置一个256g内存,从这个方面看,筛选的特征越少越好。
常见的特征选择方法,就如宗成庆的《统计自然语言处理》里面写的,有文档频率DF,互信息MI,信息增益IG,卡方检验CHI等等这几种方法。
DF很好理解的,文档频率。就是计算一个词出现的文章数目,非常简单的统计。
先跑了一遍DF,文本数是25236篇。十个类型,数据量分布不均匀。
跑出来词量是88w+。
贴上计算DF的代码
HashMap DFMap = new HashMap();
//在挑选训练集的基础上,计算文档频率DF
public void getDF(String path) throws IOException {
for (int i = 0; i < fileList.size(); i++) {
HashSet idSet = readid(fileList.get(i));
for (String id : idSet) {
Item item = hbase.getItem(id);
if(item == null) {
LOG.info("is null . id "+id);
continue;
}
List keywords = item.getkeywords();
for (Feature feature : keywords) {
if(DFMap.containsKey(feature.getName().trim())) {
DFMap.put(feature.getName().trim(), DFMap.get(feature.getName().trim())+1);
}
else {
DFMap.put(feature.getName().trim(), 1.0);
}
}
}
}
FileWriter fw = new FileWriter(path,true);
for(Entry entry : DFMap.entrySet()) {
fw.write(entry.getKey()+"\t"+entry.getValue()+"\n");
}
fw.flush();
fw.close();
}