TextRank
从PageRank
PageRank的思想是这样的:
求解网页的重要性就是求解有向图中节点的重要性,或者说节点的权重。图中节点的重要性和节点的入度有关,越多的其他节点连接到该节点说明该节点的重要性越大。因此,节点的重要性与节点的入度有关。考虑到存在没有入度的节点,增加了阻尼系数来保证所有的节点都有大于0的重要性。试验结果表明,0.85的阻尼系数,迭代100多次就可以收敛到一个稳定的值。
所以PageRank的公式:
到TextRank
TextRank从PageRank改进而来,比PageRank多了一个参数:节点之间边的权重,不同的是TextRank算法构造了一个无向图。公式如下:
文本分词后的词汇相当于有向图中的节点,节点之间的边则通过词共现关系构建。给节点指定任意初值,迭代传播节点之间的权重,直到收敛。 <