[论文阅读] 1 :CollabSum Exploiting Multiple Document Clustering for Summarizations


CollabSum - Exploiting Multiple Document Clustering for Collaborative Single Document Summarizations

本人为入坑NLP,推荐系统,信息检索方向的萌新,导师让我阅读论文,发现看过的论文如果不做记录,不久就会遗忘,在此记录下每篇论文的收获。

一.论文分类

这篇论文分类为Summarization
Summarization:
  Document summarization is the process of automatically creating a compressed version of a given document that delivers the main topic of the document. Automated document summarization has
drawn much attention for a long time because it becomes more and more important in many text applications.

二.论文特色

  一般来讲,做Summarization都是Single document summarization的,即每篇document的summarization仅仅和document content相关,但是这篇paper提出了一个不同的方式,即首先对document进行聚类(Cluster),然后将得到分类(Clusters)作为一篇document的上下文环境(Context),然后利用Context和document content来进行Summarize,作者说这样做的原因是因为相似的文章可以起到类似于互补的作用。

三.论文基本内容

  这篇论文主要是提出了一个算法,该算法的主要作用便是联合利用Cluster Context和Document content来做summarization。然后作者做了实验验证了summarization的效果,并且对某些情况做出了直观上的解释。

1.算法的大致框架

(1)Document Clustering

  首先,利用Cluster算法对Document进行聚类,此时得到的分类应该都是Topic-relative的。

(2)Affinity Graph Building

  对每一个Cluster建立一个Affinity Graph,其中的每一个节点相当于Document中的每一个Sentence,图中的节点 Si 和节点Sj之间是无向有权的,其中的权值是由Sim(Si,Sj)所决定的,而Sim(Si,Sj)代表两个句子之间的相似性,使用Cosine measure方法进行计算,所以对于每一个Cluster,可以到的一个转移矩阵如下:
得到的簇内转移矩阵

(3)Informativeness Score Computation

  这一步的作用就是模仿的PageRank算法页面得分计算过程。在第二步中,作者通过求Similarity的方式已经构造好了一个图,然后知道了图节点(Sentence)之间的转移关系,那么自然而然的就可以使用PageRank算法来计算每一个Sentence的得分了,其公式如下,其中M~指的是M在每一行的归一化(Normalization)形式:
Sentence打分公式
其矩阵形式表达如下:
Sentence打分公式的矩阵形式
由PageRank算法可知,最后问题的求解可以化作求矩阵的特征值问题,具体方法为IFScore可通过Power Mehod求解,d的一般取值为0.85,可在较快的速度下收敛。

当然,在前文的转移矩阵M中,我们的M矩阵是一个Cluster中所有Sentence的集合所构成的,我们可以将M矩阵进行拆分,拆分为Cross-Document和Within-Document两个矩阵,其中Cross-Document矩阵中,在同一篇Document中的Sentence之间的权值被设置为0,与此类似,Within-Document矩阵中,来源于不同Document的Sentence之间的权值被这是为0,这样就可以分别求得Cross-Document IFScore和Within-Document IFScore,如下图所示:
Cross-Document IFScore和Within-Document IFScore
然后可以对两个IFScore做一个线性的组合,就可以得到最终的IFScore,如下图
Final IFScore

(4)Within-Document Redundancy Removing

  这一步的主要目的就是去除文档中的内容高度重复的Sentence,我不是非常读懂了这一段的过程,其原文如下:
  The basic idea of the algorithm is to decrease the overall rank score of less informative sentences by the part conveyed from the most informative one The overall rank score ORScore(si) of any sentence si is initialized to its informativeness score. Once the
highest ranked sentence si is chosen into the summary, any remaining sentence sj linked with si are penalized as follows

Overall Score
  我的理解就是,使用IFScore去初始化每一个ORScore,然后每一次挑选一个ORScore得分最高的Sentence到Summary中,然后使用上述的迭代公式去更新剩下的Sentence的得分,更新后再选出剩下Sentence中ORSocre最高的,再更新剩下Sentence的得分,持续循环直到选到足够多的Words,Words的数目是提前设定好的。
  这样做的理由非常的明显,就是对于已经选到Summary中的Sentence,作者不希望再去选和其相似的Sentence,所以用转移矩阵和被选入Sentence 的IFScore去修改剩下Sentence的ORScore。

2.实验设置和实验结果

(1)实验设置

  实验的data set, Cluster method, implemented summarization system和评价方法(包含Cluster评价方法与Summarization评价方法)均已在Paper中给出,我认为需要注意的就是implemented summarization system,一共有四个部分: UniformLink,InterLink,UnionLink和Intralink,代表四种不同的形式。

(2)实验结果

  作者的实验结果表示,在Gold Cluter下的UniformLink的表现最好(Gold Cluster是指的人为构造的数据,即认为是分类完全正确的数据,有时候也叫做黄金标准)。在Random Cluster下使用作者提出的框架得到的Summary准确率甚至低于单独使用Intralink,这也与作者的假设相符,即只有生成的Cluster是Topic-Sensetive的时候,才能够使用该算法对Summarization进行优化,同时随着Cluster的效果变好,Summarization的效果也会变好。这也是与作者的提出的idea是相符合的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值