全文框架概览
一、关键短语抽取简介
关键短语抽取 (keyphrase extraction),指从文章中提取典型的、有代表性的短语,期望 能够表达文章的关键内容。关键短语抽取对于文章理解、搜索、分类、聚类都很重要。而高质量的关键短语抽取算法,还能有效助力构建知识图谱。
常见的关键短语抽取方法分为有监督 (supervised)和无监督 (unsupervised)。整体抽取流程则分为2个步骤:(1) candidate generation,得到候选短语集合;(2) keyphrase scoring,对候选短语进行打分。
Figure 1 Keyphrase整体流程
二、业内方法介绍
无监督方法
无监督的方法由于其不需要数据标注及普适性,得到了大范围的应用。
Figure 2 无监督方法概览
1. 基于统计的方法
- 基于TFIDF的方法是最基本的版本,在得到候选短语集合的基础上(如,利用POS tags抽取noun phrases (NP)),使用term frequency, inverse document frequency对候选短语进行打分,选择高分短语作为关键短语。
YAKE[1]除了利用term frequency, term position,还利用了更多基于统计学的特征,希望能更好地表示短语的上下文信息和短语在文章中发挥的作用。
2. 基于图网络的方法
- TextRank[2]是第一个基于图网络的关键短语抽取算法。该方法首先根据POS tags抽取候选短语,然后使用候选短语作为节点,创建图网络。两个候选短语如果共现于一定的窗口内,则在节点之间创建一条边,建立节点间的关联。使用PageRank[3]算法更新该图网络,直至达到收敛条件。
此后,各种基于图网络的改进算法不断被提出,该类算法也逐渐成为无监督关键短语抽取中应用最广泛的算法。SingleRank[4]在TextRank之上为节点间的边引入了权重。PositionRank[5]通过引入短语的位置信息,创建一个biased weighted PageRank,从而提供了更准确的关键短语抽取能力。
3. 基于embedding的方法:这类方法,利用embedding来表达文章和短语在各个层次的信息(如:字、语法、语义等)。
EmbedRank[6]首先利用POS tags抽取候选短语,然后计算候选短语embedding和文章embedding的cosine similarity,利用相似度将候选短语排序,得到关键的短语。
Figure 3 典型无监督方法在benchmarks上的效果
有监督方法
虽然需要花费很多精力进行数据标注,但有监督方法在各个特定任务和数据集上,通常能够取得更好的效果。
Figure 4 有监督方法概览
1. 传统的方法
- KEA[7]是较早期的算法,利用特征向量表示候选短语,如:tf-idf分数和初次出现在文章中的位置信息,使用Naïve Bayes作为分类,对候选短语进行打分和分类。在此之上,许多改进版本的算法也被提出,如:Hulth等人引入语言学知识,提出了改进版本[8]。CeKE[9]在对学术论文进行关键短语抽取时,通过使用论文的引用关系,引入更多特征信息,从而进一步提升了效果。
- RankingSVM[10]使用learning to rank来建模该问题,将训练过程抽象为拟合ranking函数。
- TopicCoRank[11]是无监督方法TopicRank的有监督扩展。该方法在basic topic graph之外,结合了第二个图网络。
CRF[12]是序列标注的经典算法,利用语言学、文章结果等各种来源特征表示文章,通过序列标注,得到文章的关键短语。
2. 基于深度学习的方法
- RNN[13]使用了双层RNN结构,通过两层hidden layer来表征信息,并且利用序列标注的 方法,输出最终的结果。
- CopyRNN[14]使用encoder-decoder结构进行关键短语抽取。首先,训练数据被转换为text-keyphrase pairs,然后训练基于RNN的en