关键词提取算法之RAKE
RAKE(Rapid Automatic Keyword Extraction)算法,作者Alyona Medelyan,她的GitHub上有很多关键字提取的项目。
RAKE算法的亮点在于“R” : Rapid , 快速却能取得很不错的效果。
作者的思路大致是:
1).分词。在提取英文关键词中,给定一篇英文文档,以标点符号及停用词作为分词标准;
2).共现矩阵。 构建共现矩阵;
3).特征提取。包含词频freq、度deg 以及度与频率之比 deg/freq 三个特征;
4).定义score。score = deg/freq
5).降序输出。 按score大小降序输出1/3文档词汇量的关键词。
其中,提取特征后有个特殊处理,对于相邻的关键词,如果满足同一文档和相同顺序中至少两次相邻,则进行合并,成为新的候选关键词后,score 定义为合并前的候选关键词score之和。这样操作的原因是,这些相邻候选关键词相对较少,简单对score相加,增加了它们的重要性。
引用原论文的栗子:
分词后
共现矩阵