特征词提取常见算法
----------无监督----------
1.TF-IDF
重要性=每个单词的词频TF * 逆文档频率IDF。
思想:如果单词或短语在一篇文章中出现频率更高(TF值高)而在其他文章中出现少(DF值低,IDF值高),则认为该词或短语可以很好地代表文章,并可以用于分类。
2.TextRank
基于PageRank,该算法认为,如果在Page B中有指向Page A的链接,则Page B会投票给Page A,为了计算Page A的PageRank值,我们需要知道哪些page会投票给Page A。同时,PageRank值也会被投票page的质量影响。当一些高质量的页面投票给Page A,A的PR值就会上升,反之下降。
候选词的重要性根据它和其他候选词的关系来确定。将文本划分为几个组成单元(单词,短语,句子),并通过组成单元之间的相邻关系(共现关系)构建图模型。 节点的入口节点集代表其投票支持者的数量。 选民越多,权重越高,被投票节点的权重就越高。
可以结合位置加权等
3.基于LDA的关键词提取
LDA的训练,可以的得到一篇文章的主题分布p(z|di),和文章中词的主题分布p(z|wi),可以通过余弦相似度或者KL散度来计算这两个分布的相似性。如果文章的某一主题z的概率很大,而该文章中某个词对于该主题z也拥有更大的概率,那么该词就会有非常大的概率成为关键词。在gensim里,使用的方法是:候选的关键词与抽取的主题计算相似度并进行排序,得到最终的关键词。
-------------------------
4.Word2vec
候选词对应的词向量,对词向量进行聚类,距离聚类中心点最近的向量为关键词。