大纲
- 关键词提取技术介绍
- 常用的关键词提取算法详解
- 文本关键词提取实战
5.1 关键词提取技术概述
-
有监督
主要通过分类的方式进行,通过构建一个丰富和完善的词表,然后通过判断每个文档与词表中每个文档与词表中每个词的匹配程度,以类似打标签的方式,从而达到关键词提取的效果。能够获得较高精度,但是需要大批量的标注数据,人工成本较高;
-
无监督
不需人工生成、维护的词表,也不需要人工标注语料辅助进行训练,主要有TF-IDF算法、TextRank算法和主题模型算法(LSA、LSI、LDA等);
5.2 关键词提取算法TF-IDF
- TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频次算法):基于统计的计算方法,常用于评估一个文档集中一个词对某份文档的重要程度。TF算法统计一个词在一篇文档中出现的频次,基本思想为:一个词在文档中出现的词数越多,则对文档的表达能力也越强。IDF算法统计一个词在文档集中的多少个文档中出现,基本思想为:若一个词在越少的文档中出现,则对文档的区分能力越强;
t f i j = n i j ∑ k n k j tf_{ij}=\frac{n_{ij}}{\sum _k n_{kj}} tfij=∑knkjnij
i d f i = l o g ( ∣ D ∣ 1 + ∣ D i ∣ ) idf_i=log(\frac{|D|}{1+|D_i|}) idfi=log(1+∣Di∣∣D∣)
t f − i d f ( i , j ) = t f i j × i d f i = n i j ∑ k n k j × l o g ( ∣ D ∣ 1 + ∣ D i ∣ ) tf-idf(i,j) = tf_{ij} \times idf_i = \frac{n_{ij}}{\sum _k n_{kj}} \times log(\frac{|D|}{1+|D_i|}) tf−idf(i,j)