文本分类-特征选择方法

最新推荐文章于 2023-07-30 03:05:31 发布

MC-Zhang

最新推荐文章于 2023-07-30 03:05:31 发布

阅读量3.8k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BlowfishKing/article/details/78298057

版权

本文介绍了文本分类中的特征选择方法，包括文档频率、互信息、信息增益、开方拟和检验方法（CHI统计）以及潜在语义分析（LSA）。特征选择旨在降低维度，权重计算用于衡量特征项的重要性。各方法有其优缺点，如DF适用于大规模语料，互信息反映相关性，信息增益关注全局贡献，CHI统计基于偏差分析，LSA解决同义词和多义词问题。

摘要由CSDN通过智能技术生成

文本分类-特征选择方法

一、概念

特征词选择和特征词权重

1.特征词选择：特征词选择是为了降低文本表示的维度，而特征词权重是为了表示文本表示中每一个特征项的重要程度。

常见的且基础的文本特征选择的算法有基于文档频率(DocumentFrequency)、信息增益(InformationGain,IG)、开方拟和检验方法(CHI统计)、互信息(mutualInformation)、潜在语义分析LSA、期望值交叉算熵、文本证据权、termstrength(TS)、GSSCoefficient、oddsratio。

2.特征词权重：每一个特征项的重要程度

常见的算法：TF-IDF，TF的改进，信息熵的引用

3.区别：特征词选择是为了降低文本表示的维度，而特征词权重是为了表示文本表示中每一个特征项的重要程度。

二、特征选择方法总结

1.文档频率

词条的文档频率（document frequency）是指在预料中出现该词条的文档的数目。只有当某词条在较多的文档中出现时才被保留下来，DF值低于某个阈值的词条是低频词，将这样的词条从原始特征空间中移除，不但能够降低特征空间的维数，而且还有可能提高分类的精度。

DF是一种最简单的词约简技术，由于具有相对于预料规模的线性复杂度，所以它能够容易地被用于大规模的语料特征选择中。

缺点：对低文档频的特征项不可靠,而且不能说明词条和类别的相关性

最低0.47元/天解锁文章

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
文本分类-特征选择方法

文本分类-特征选择方法一、概念特征词选择和特征词权重1.特征词选择：特征词选择是为了降低文本表示的维度，而特征词权重是为了表示文本表示中每一个特征项的重要程度。常见的且基础的文本特征选择的算法有基于文档频率(DocumentFrequency)、信息增益(InformationGain,IG)、开方拟和检验方法(CHI统计)、互信息(mut
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。