#Paper Reading# Multi-document Summarization Based on Cluster Using Non-negative Matrix

11 篇文章 0 订阅
3 篇文章 0 订阅

论文题目:Multi-document Summarization Based on Cluster Using Non-negative Matrix Factorization
论文地址:https://link.springer.com/chapter/10.1007/978-3-540-69507-3_66
论文发表于:SOFSEM 2007(CORE B类会议,QUALIS B1类会议)

论文大体内容:
本文提出一个基于NMF与K-Means聚类,进行多文档自动摘要(extraction)的模型,这个模型因为使用了NMF,能够使得抽取出来的句子能够更加贴近一个给定的主题,从而提升自动文档摘要的质量。

1、整体过程如下
这里写图片描述

2、预处理
①将文档拆分为句子;
②去除停用词等;
③构造由tfidf组成的D矩阵;
这里写图片描述

3、K-Means聚类
①将句子根据D矩阵列向量的距离,用K-Means聚类;
②对一个类的元素小于5的类别标注为noise,去除掉;
③根据总共需要摘录的句子数量,平均分配到每个类别中;
④对每个类别进行NMF操作(paper中NMF是使用A=WH的字母表示,但本博文中用D=UV表示);
这里写图片描述

4、对每个类别抽取句子
①对U矩阵每一列(topic)使用余弦相似度计算与给定的topic的相关度,选出最相关的那一列p;
②在V矩阵中,对第p行(topic),选出值最大的Vpq,所在的列为q;
③选择D中的第q个句子,作为摘要的其中一个句子;
④重复①-③,直到抽选出足够的句子;
这里写图片描述

实验
5、Dataset
本文采用了DUC 2005(Document Understanding Conference 2005)的测试数据集作为评测数据。该数据集包含来自TDT(Topic Detection Tracking)的50个文档集合,每个集合含有30篇主题相同的文档。数据集中还为每个文档集提供了4-9篇专家摘要作为评价的理想摘要。

6、评测方法
使用自动摘要评测方法ROUGE(Recall-Oriented Understudy for Gisting Evaluation)来进行评测。ROUGE是一种基于要点召回率的评测方法,它通过考察专家摘要与机器摘要中相同评价单元(如n-gram、词序、词对等)的重叠数量来达到对文档质量进行自动评测的目的。

7、使用不同baseline的效果
这里写图片描述

8、与DUC 2005参赛选手的结果对比,以及与人工摘要的结果对比
这里写图片描述

以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值