摘要
TextRank是一个图排序模型,还是一个非监督方法。可用于关键字提取和短语提取。
TextRank模型
TextRank基于全图,递归获取全局信息,来决定每个顶点的重要性。
其中,d是阻尼系数,通常取0.85。(论文Brin and Page,1998)。
TextRank算法运行结束后,每个顶点的最终取值与初始值得选择是无关的。初始值得选择只会影响算法迭代到收敛的次数。
权重图
权重图的公式稍微不同于上式:
把文本当做图处理
顶点:单词、短语、全部的句子,等等
边:词汇或者语义上的关系、前后关系上的重叠,等等