0 前言
在研究Text Rank算法时,有提到这个共现关系,从字面上很好理解,共同出现的关系,但是深究下,却发现有点绕。
1 共现关系
在文献计量学中,关键词的共词方法常用来确定该文献集所代表学科中各主题之间的关系。例如,需要通过分析一篇小说或剧本,来分析剧中各个角色之间的人物关系,可以用共现关系。
一般我们认为,在一篇文章中的同一段出现的两个人物之间,一定具有某种关联,因此我们的程序的大致流程也可以确定下来。我们可以先做分词,将每一段中的人物角色抽取出来,然后以段落为单位,统计两个角色同时出现的出现次数,并把结果存在一个二维矩阵之中。这个矩阵也可以作为关系图的矩阵,矩阵中的元素(统计的出现次数)就是边的权值。
举个例子,比如,现有三个段落的分词结果如下:a/b/c,b/a/f,a/d/c,那么就是ab共现2次,ac共现2次,以此类推。
回到我们所说的Text Rank算法,“然后采用共现关系(co-occurrence)构造任两点之间的边”这句话,初看,挺好理解的。