TF-IDF自动提取关键词

最新推荐文章于 2024-08-29 21:48:32 发布

HBQ_

最新推荐文章于 2024-08-29 21:48:32 发布

阅读量655

点赞数

分类专栏：数据挖掘与算法

数据挖掘与算法专栏收录该内容

9 篇文章 0 订阅

订阅专栏

TF-统计 IDF逆文档频率

算法思想：在一个文章中某个词的词频越大越有可能是关键词，如果一个词越少见，权重越大。

用统计学语言表达，就是在词频的基础上，要对每个词分配一个"重要性"权重。最常见的词（"的"、"是"、"在"）给予最小的权重，较常见的词（"中国"）给予较小的权重，较少见的词（"蜜蜂"、"养殖"）给予较大的权重。这个权重叫做"逆文档频率"（Inverse Document Frequency，缩写为IDF），它的大小与一个词的常见程度成反比。

知道了"词频"（TF）和"逆文档频率"（IDF）以后，将这两个值相乘，就得到了一个词的TF-IDF值。

（1）词频统计

（2）计算逆文档频率

这时，需要一个语料库（corpus），用来模拟语言的使用环境。

如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数。

（3）计算TF-IDF

TF-IDF算法的优点是简单快速，结果比较符合实际情况。缺点是，单纯以"词频"衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多。而且，这种算法无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的。（一种解决方法是，对全文的第一段和每一段的第一句话，给予较大的权重。）

摘自网上http://www.ruanyifeng.com/blog/2013/03/tf-idf.html