NLP 关键词提取常用方法

本文探讨了多种特征词提取算法，包括TF-IDF、TextRank、基于LDA的关键词提取、Word2vec、基于语义的关键词提取（SKE）、TPR、改进的TF-PDF算法等，详细解析了各算法原理及应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

特征词提取常见算法

----------无监督----------

1.TF-IDF

重要性=每个单词的词频TF * 逆文档频率IDF。
思想：如果单词或短语在一篇文章中出现频率更高（TF值高）而在其他文章中出现少（DF值低，IDF值高），则认为该词或短语可以很好地代表文章，并可以用于分类。

2.TextRank

基于PageRank，该算法认为，如果在Page B中有指向Page A的链接，则Page B会投票给Page A，为了计算Page A的PageRank值，我们需要知道哪些page会投票给Page A。同时，PageRank值也会被投票page的质量影响。当一些高质量的页面投票给Page A，A的PR值就会上升，反之下降。
候选词的重要性根据它和其他候选词的关系来确定。将文本划分为几个组成单元（单词，短语，句子），并通过组成单元之间的相邻关系（共现关系）构建图模型。节点的入口节点集代表其投票支持者的数量。选民越多，权重越高，被投票节点的权重就越高。

可以结合位置加权等

3.基于LDA的关键词提取

LDA的训练，可以的得到一篇文章的主题分布p(z|di)，和文章中词的主题分布p(z|wi)，可以通过余弦相似度或者KL散度来计算这两个分布的相似性。如果文章的某一主题z的概率很大，而该文章中某个词对于该主题z也拥有更大的概率，那么该词就会有非常大的概率成为关键词。在gensim里，使用的方法是：候选的关键词与抽取的主题计算相似度并进行排序，得到最终的关键词。