一、textrank 论文解读
textrank 的思想是从谷歌的pagerank借鉴的。那我们先来讲一下PageRank的原理,PageRank就是认为 如果一个网页被很多网页链接的话,那就认为这个网页很重要。对于textrank 来讲那就是 如果一个单词出现在很多单词后面,那么说明这个单词很重要。
textrank 是个基于图的算法,类似于熟悉的N-gram算法,在textrank中每一个词与其前面的N个词以及后面的N个词均具有图相邻的关系,与PageRank不同的是,textrank是无向图,又因为在网页浏览的背景下,一个页面包含到另一个页面的多个或部分链接是不寻常的,因此,基于图表的排名的最初定义是假定为“中性”。然而,在我们的模型中,图是从自然语言文本中构建的,并且可能包括从文本中提取的单元之间的多个或部分链接。
基于图的排序算法本质上是一种根据从图中提取的全局信息来决定图中定点重要性的方法。对于G = (V,E),这个图来说,V是顶点,(如果在关键词抽取中对应的单词词组,如果在摘要抽取中对应的是句子),E是边,对于一个顶点,In(Vi)是指指向Vi的所有顶点(前驱节点集合),OUT(Vi)是Vi指向的顶点的集合(后继节点集合)。d是一个阻尼系数,在这里起到平滑的作用,通常设置为0。85。
textrank 的公式为:
TextRank中一个单词