#Paper Reading# Multi-Document Summarization via Sentence-Level Semantic Analysis and SMF

11 篇文章 0 订阅
3 篇文章 0 订阅

论文题目:Multi-Document Summarization via Sentence-Level Semantic Analysis and Symmetric Matrix Factorization
论文地址:http://dl.acm.org/citation.cfm?id=1390387
论文发表于:SIGIR 2008(CCF A类会议)

论文大体内容:
本文提出一个基于sentence level的语义分析(SLSS)与对称NMF(SNMF)的多文档摘要方法,能够更好的考虑语义层面的关系,已达到一个更好的效果。

1、方法的整体过程如下:
这里写图片描述

2、构造sentence level的句子相似矩阵(∈R^(S*S))
①将文档拆分成句子;
②句子划分为frames(每个动词以及其附近的词组成一个frame),
③对frames中的terms进行词性标注(semantic role),以此判断两个terms是否related;
④计算各个frame下,semantic role的相似度(terms的交集累加);
⑤计算frames的相似度(累加);
⑥计算sentences的相似度(最大值),从而得出sentence level的相似矩阵;
这里写图片描述

3、SNMF(对称NMF)聚类
①目标方程如下;
这里写图片描述
②使用拉格朗日展开,加上KKT,梯度下降,得出更新方程如下;
这里写图片描述

4、SNMF的特性
①近正交性;
②等价于谱聚类的一种形式(谱聚类将对象映射成无向图中的点,对象之间的相似度做为点之间的边的权值,然后基于一些准则设计出合适的图划分算法[1]。Normalized Cuts是其中一种);
③等价于Kernel K-means

5、对每个类别的句子进行打分排序,同时考虑两个因素(Mp):
①与同一类的其它句子的平均相似度(M1);
②句子与给定主题的相似度(M2);
这里写图片描述

实验
6、Dataset:DUC2005,DUC2006

7、Baseline:
①LeadBase:直接对所有句子排序;
②Random:随机选句子;
③LSA:使用其他学者提出的基于LSA的方法;
④NMFBase:使用其他学者提出的基于NMF的方法;

8、对比实验,分别用不同的方法来处理三个关键步骤:
①句子相似矩阵(SLSS,keyword-based);
②聚类(SNMF,K-means,NMF);
③句子排序方法(Mp,M1,M2);
这里写图片描述

9、评测方法:ROUGE

10、实验结果
①SLSS与keyword-based对比(SLSS较好);
这里写图片描述
这里写图片描述
②聚类方法对比(SNMF较好);
这里写图片描述
这里写图片描述
③句子排序方法对比(λ取0.7最好);
这里写图片描述
这里写图片描述
④各种方法对比(SLSS+SNMF+Mp最好);
这里写图片描述
这里写图片描述

参考资料:
[1]、http://blog.sciencenet.cn/blog-798994-862473.html

以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值