python 文本分类卡方检验_文本分类的特征选择——DF和卡方检验

最新推荐文章于 2022-12-30 14:36:51 发布

hero志

最新推荐文章于 2022-12-30 14:36:51 发布

阅读量1.2k

点赞数 1

文章标签： python 文本分类卡方检验

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29428137/article/details/113642479

版权

收集好了训练样本集，需要对文本词语进行特征选择。

特征选择的意义有两个：

1.去掉噪音

去噪一个是去掉无意义的词，像只有几个文档出现过的词，或者每一个文档都出现的词。或者在很多类别里面都存在的词，其实都没有太大的意义。因为这些词对分类的结果起不到太大的作用。

2.降低维度

降维的作用主要是减少运算复杂度，加快运算速度。如果是自己的电脑一般也不会配置一个256g内存，从这个方面看，筛选的特征越少越好。

常见的特征选择方法，就如宗成庆的《统计自然语言处理》里面写的，有文档频率DF，互信息MI，信息增益IG，卡方检验CHI等等这几种方法。

DF很好理解的，文档频率。就是计算一个词出现的文章数目，非常简单的统计。

先跑了一遍DF，文本数是25236篇。十个类型，数据量分布不均匀。

跑出来词量是88w+。

贴上计算DF的代码

HashMap DFMap = new HashMap();

//在挑选训练集的基础上，计算文档频率DF

public void getDF(String path) throws IOException {

for (int i = 0; i < fileList.size(); i++) {

HashSet idSet = readid(fileList.get(i));

for (String id : idSet) {

Item item = hbase.getItem(id);

if(item == null) {

LOG.info("is null . id "+id);

continue;

}

List keywords = item.getkeywords();

for (Feature feature : keywords) {

if(DFMap.containsKey(feature.getName().trim())) {

DFMap.put(feature.getName().trim(), DFMap.get(feature.getName().trim())+1);

}

else {

DFMap.put(feature.getName().trim(), 1.0);

}

}

}

}

FileWriter fw = new FileWriter(path,true);

for(Entry entry : DFMap.entrySet()) {

fw.write(entry.getKey()+"\t"+entry.getValue()+"\n");

}

fw.flush();

fw.close();

}

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python 文本分类卡方检验_文本分类的特征选择——DF和卡方检验

收集好了训练样本集，需要对文本词语进行特征选择。特征选择的意义有两个：1.去掉噪音去噪一个是去掉无意义的词，像只有几个文档出现过的词，或者每一个文档都出现的词。或者在很多类别里面都存在的词，其实都没有太大的意义。因为这些词对分类的结果起不到太大的作用。2.降低维度降维的作用主要是减少运算复杂度，加快运算速度。如果是自己的电脑一般也不会配置一个256g内存，从这个方面看，筛选的特征越少越好。常见的特...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。