数据挖掘-文本分类:特征选择方法总结

本文主要介绍了文本分类中的特征选择方法,包括文档频率、互信息、信息增益和开方拟和检验方法。特征选择有助于降低文本表示维度,特征词权重如TF-IDF用于衡量重要性。互信息和信息增益是常用的相关性度量,但各有局限性。
摘要由CSDN通过智能技术生成

一、概念

二、特征选择方法总结

 

一、概念

   特征词选择和特征词权重

   1.特征词选择:特征词选择是为了降低文本表示的维度,而特征词权重是为了表示文本表示中每一个特征项的重要程度。

   常见的且基础的文本特征选择的算法有基于文档频率(DocumentFrequency)、信息增益(InformationGain,IG)、开方拟和检验方法(CHI统计)、互信息(mutualInformation)、潜在语义分析LSA、期望值交叉算熵、文本证据权、termstrength(TS)、GSSCoefficient、oddsratio。

   

   2.特征词权重:每一个特征项的重要程度

   常见的算法:TF-IDF,TF的改进,信息熵的引用

 

   3.区别:特征词选择是为了降低文本表示的维度,而特征词权重是为了表示文本表示中每一个特征项的重要程度。

 

二、特征选择方法总结

   1.文档频率

   词条的文档频率(documen

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值