文本特征提取方法——TF-IDF, LDA, Word2Vec

(一)TF-IDF

TF-IDF(term frequency-inverse document frequency)是一种信息检索和数据挖掘常用的加权技术。TF表示词频,IDF 表示逆文本频率,用以评估一个字词对于一个文件集或一个语料库中的一份文件的重要程度。字词的重要性随着在文件中出现的次数成正比,但随着在语料库中出现的频率成反比。

主要思想:某个词或短语在一篇文章中出现的频率TF越高,并在其他文章中很少出现,表示该词语或短语有很好的类别区分能力,适合用来分类。TF-IDF实际上是TF*IDF,IDF表示如果包含词条t的文档越少,n越小,IDF越大,词条t具有很好的类别区分能力,如果某类文档C中包含词条t的文档数是m.对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值