关键词:
TF/IDF
textRank(pageRank的变种):利用词共现制作无向有权图,通过设置贡献窗口长度k,也就是在词w的前k个和后k个出现的词都与w有线相连,初始化相同噢工的随即权重,迭代运算直至前后权重变化小与某个很小的值时,词的权重就确定了。权重越大,词越重要,相当于w相连的词给w打分。
摘要:
TF/IDF:计算去除停用词后的每句话中词的权重和,权重大的为摘要。
textRank(pageRank的变种):
将每个句子看成图中的一个节点,若两个句子之间有相似性,认为对应的两个节点之间有一个无向有权边,权值是相似度。
通过pagerank算法计算得到的重要性最高的若干句子可以当作摘要。
论文中使用下面的公式计算两个句子Si和Sj的相似度:
分子是在两个句子中都出现的单词的数量。|Si|是句子i的单词数。
由于是有权图,PageRank公式略做修改: