NLP实践三：特征选择

最新推荐文章于 2023-11-25 00:55:45 发布

chen_yiwei

最新推荐文章于 2023-11-25 00:55:45 发布

阅读量794

点赞数

分类专栏： NLP 机器学习基础知识

本文链接：https://blog.csdn.net/chen_yiwei/article/details/88254872

版权

目录TF-IDFTF-IDF原理TF-IDF实践互信息互信息计算参考链接TF-IDFTF-IDF原理TF-IDF(Term Frequency-Inverse DocumentFrequency, 词频-逆文件频率)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频...

摘要由CSDN通过智能技术生成

TF-IDF

TF-IDF原理

TF-IDF(Term Frequency-Inverse DocumentFrequency, 词频-逆文件频率)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。
词频TF（item frequency）：某一给定词语在该文本中出现次数。该数字通常会被归一化（分子一般小于分母），以防止它偏向长的文件，因为不管该词语重要与否，它在长文件中出现的次数很可能比在段文件中出现的次数更大。
$词频(TF)=\frac{某个词在文章中出现次数}{文章总词数}$
逆向文件频率IDF（inverse document frequency）：一个词语普遍重要性的度量。主要思想是：如果包含词条t的文档越少, IDF越大，则说明词条具有很好的类别区分能力。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。
$逆文档频率(IDF)=log(\frac{语料库的文档总数}{包含该词的文档数+1})$

最低0.47元/天解锁文章

chen_yiwei

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLP实践三：特征选择

目录TF-IDFTF-IDF原理TF-IDF实践互信息互信息计算参考链接TF-IDFTF-IDF原理TF-IDF(Term Frequency-Inverse DocumentFrequency, 词频-逆文件频率)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频...
复制链接

扫一扫

专栏目录