TextRank文档摘要
思想:借用pagerank的思路,把词和句看成”顶点”,把他们的共现看成”边”,可以认为,存在共现关系,即可视为一种”推荐”,通过迭代,使得到更多推荐的节点取得更高的分值,用以提取关键词、关键句子。
pagerank算法
S(Vi)=(1−d)+d∑j∈In(Vj)1Out(Vj)S(Vj)
S
(
V
i
)
=
(
1
−
d
)
+
d
∑
j
∈
I
n
(
V
j
)
1
O
u
t
(
V
j
)
S
(
V
j
)
某网页Vi的得分,由两个部分构成,其中1-d是为防止出现零值,d右边的部分,是引用该网页的各网页Vj的投票之和,投票值等于该网页的打分S(Vj)除以它的出度,d一般取经验值0.85
应用到关键词提取和句子提取上,也是类似的,只是作者在pagerank的公式上作了修改,加入了得分权重,而在原始的pagerank中,所有的出链被当作是完全同等的,因此公式变为
S(Vi)=(1−d)+d∑j∈In(Vj)wji∑Vk∈Out(Vj)wjkS(Vj)
S
(
V
i
)
=
(
1
−
d
)
+
d
∑
j
∈
I
n
(
V
j
)
w
j
i
∑
V
k
∈
O
u
t
(
V
j
)
w
j
k
S
(
V
j
)
关键词提取
过滤停用词和不重要的词之后,把有意义的词看成顶点,窗口内的上下文共现的词与之连成边。实现表明,窗口大小为2,即只考虑相邻词时,效果最好,实现中只抽取了unigram,如果被选取的关键词在段落中相邻,则将之拼在一起作为phrase,并且,在只选取了名词和形容词时效果最好。
实验的对比对象为当时的最好结果,它用的是有监督方法,特征上考虑了文档内词频、数据集词频、首次出现的相对位置和postag序列
实验还对比了有向图的结果,即把词的出现顺序作为出/入方向,但结果不如无向图,且正向逆向的结果完全相等。
重要句子提取
抽取句子时,句子为顶点,句子内存在共同的词看成连接,把句子的相似度作为权重
由于该方法是无监督方法,对语料和计算量要求不高,且效果比较好,目前是文本摘要的主流方法之一
文章链接
https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf