TextRank算法
TextRank算法基本思想来源于PageRank算法,首先了解一下PageRank算法。
PageRank算法是一种用于网页排名的算法,其基本思想有两条:
1.链接数量。一个网页被越多的其他网页链接,说明这个网页越重要。
2.链接质量。一个网页被一个越高权值得网页链接,也能表明这个网页越重要。
个人理解:该算法的主要思想就是每个网页都有自己的权值得分,然后该得分影响该网页所链接的其他网页。在算法开始时,每个网页的初始得分都是1,然后经过多次迭代对每个网页的分数进行收敛。若不能收敛,也可以通过设定最大迭代次数来对计算过程进行限制。
此外,由于存在孤立的网页,为了防止孤立的网页得分为0而不被访问。在公式中加入了阻尼系数(公式就不列出来了)。
以上就是PageRank算法基本理论的简单理解,也是TextRank算法的基础理论。注意,PageRank是有向无权图,而TextRank进行自动摘要则需要有向有权图。在考虑到链接句(对一篇文章进行自动摘要时,默认每个语句和其他所有句子都是有链接关系,也就是一个有向完全图)的重要性之外,还需要考虑句子之间的相似度。
注:本文为个人学习笔记以及理解,内容参考于《python自然语言处理实战:核心技术与算法》