中文文本中的关键字提取算法总结

最新推荐文章于 2025-02-20 16:57:34 发布

CurryCoder

最新推荐文章于 2025-02-20 16:57:34 发布

阅读量1w

点赞数 9

分类专栏： NLP

本文链接：https://blog.csdn.net/cdlwhm1217096231/article/details/94566936

版权

关键词分配：给定一个已有的关键词库，对于新来的文档从该词库里面匹配几个词语作为这篇文档的关键词。
关键词提取：针对新文档，通过算法分析，提取文档中一些词语作为该文档的关键词。目前。大多数应用领域的关键词抽取算法都是基于第二种方法实现的，因为第二种方法在实际应用中更准确。

在信息检索理论中，TF-IDF是(Term Frequency-Inverse Document Frequency)的简写。TF-IDF是一种数值统计，用来反映一个词语对于语料中某篇文档的重要性。在信息检索和文本挖掘领域，它经常用于因子加权。TF-IDF的主要思想：如果某个词在一篇文档中出现的频率越高，即TF越高；并且在语料库中其他文档中很少出现，即DF低，也就是IDF越高，则认为这个词具有很好的类别区分能力。
TF（Term Frequency）词频：表示词语在文档d中出现的概率，计算公式如下：
$\mathrm{tf}_{\mathrm{i}, \mathrm{j}}=\frac{n_{i, j}}{\sum_{k} n_{k, j}}$
其中, $\boldsymbol{n}_{i, j}$ 是该词语 $\boldsymbol{t}_{i}$ 在文档 $\boldsymbol{d}_{j}$ 中出现的次数，而分母则是在文档 $\boldsymbol{d}_{j}$ 中所有字词的出现次数之和。
IDF（Inverse Document Frequency）逆文档频率：表示语料库中包含词语 $\boldsymbol{t}_{i}$