#Paper Reading# Multi-document Summarization Based on Cluster Using Non-negative Matrix

最新推荐文章于 2023-02-21 14:21:34 发布

John159151

最新推荐文章于 2023-02-21 14:21:34 发布

阅读量546

点赞数

分类专栏： paper reading NMF ADS

本文链接：https://blog.csdn.net/John159151/article/details/57416379

版权

paper reading 同时被 3 个专栏收录

99 篇文章 4 订阅

订阅专栏

ADS

11 篇文章 0 订阅

订阅专栏

NMF

3 篇文章 0 订阅

订阅专栏

论文题目：Multi-document Summarization Based on Cluster Using Non-negative Matrix Factorization
论文地址：https://link.springer.com/chapter/10.1007/978-3-540-69507-3_66
论文发表于：SOFSEM 2007（CORE B类会议，QUALIS B1类会议）

论文大体内容：
本文提出一个基于NMF与K-Means聚类，进行多文档自动摘要（extraction）的模型，这个模型因为使用了NMF，能够使得抽取出来的句子能够更加贴近一个给定的主题，从而提升自动文档摘要的质量。

1、整体过程如下
这里写图片描述

2、预处理
①将文档拆分为句子；
②去除停用词等；
③构造由tfidf组成的D矩阵；
这里写图片描述

3、K-Means聚类
①将句子根据D矩阵列向量的距离，用K-Means聚类；
②对一个类的元素小于5的类别标注为noise，去除掉；
③根据总共需要摘录的句子数量，平均分配到每个类别中；
④对每个类别进行NMF操作（paper中NMF是使用A=WH的字母表示，但本博文中用D=UV表示）；
这里写图片描述

4、对每个类别抽取句子
①对U矩阵每一列（topic）使用余弦相似度计算与给定的topic的相关度，选出最相关的那一列p；
②在V矩阵中，对第p行（topic），选出值最大的Vpq，所在的列为q；
③选择D中的第q个句子，作为摘要的其中一个句子；
④重复①-③，直到抽选出足够的句子；
这里写图片描述

实验
5、Dataset
本文采用了DUC 2005（Document Understanding Conference 2005）的测试数据集作为评测数据。该数据集包含来自TDT（Topic Detection Tracking）的50个文档集合，每个集合含有30篇主题相同的文档。数据集中还为每个文档集提供了4-9篇专家摘要作为评价的理想摘要。

6、评测方法
使用自动摘要评测方法ROUGE（Recall-Oriented Understudy for Gisting Evaluation）来进行评测。ROUGE是一种基于要点召回率的评测方法，它通过考察专家摘要与机器摘要中相同评价单元（如n-gram、词序、词对等）的重叠数量来达到对文档质量进行自动评测的目的。

7、使用不同baseline的效果
这里写图片描述

8、与DUC 2005参赛选手的结果对比，以及与人工摘要的结果对比
这里写图片描述

以上均为个人见解，因本人水平有限，如发现有所错漏，敬请指出，谢谢！

John159151

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
#Paper Reading# Multi-document Summarization Based on Cluster Using Non-negative Matrix

论文大体内容：本文提出一个基于NMF与K-Means聚类，进行多文档自动摘要（extraction）的模型，这个模型因为使用了NMF，能够使得抽取出来的句子能够更加贴近一个给定的主题，从而提升自动文档摘要的质量。
复制链接

扫一扫

专栏目录