论文题目:Multi-Document Summarization via Sentence-Level Semantic Analysis and Symmetric Matrix Factorization
论文地址:http://dl.acm.org/citation.cfm?id=1390387
论文发表于:SIGIR 2008(CCF A类会议)
论文大体内容:
本文提出一个基于sentence level的语义分析(SLSS)与对称NMF(SNMF)的多文档摘要方法,能够更好的考虑语义层面的关系,已达到一个更好的效果。
1、方法的整体过程如下:
2、构造sentence level的句子相似矩阵(∈R^(S*S))
①将文档拆分成句子;
②句子划分为frames(每个动词以及其附近的词组成一个frame),
③对frames中的terms进行词性标注(semantic role),以此判断两个terms是否related;
④计算各个frame下,semantic role的相似度(terms的交集累加);
⑤计算frames的相似度(累加);
⑥计算sentences的相似度(最大值),从而得出sentence level的相似矩阵;
3、SNMF(对称NMF)聚类
①目标方程如下;
②使用拉格朗日展开,加上KKT,梯度下降,得出更新方程如下;
4、SNMF的特性
①近正交性;
②等价于谱聚类的一种形式(谱聚类将对象映射成无向图中的点,对象之间的相似度做为点之间的边的权值,然后基于一些准则设计出合适的图划分算法[1]。Normalized Cuts是其中一种);
③等价于Kernel K-means
5、对每个类别的句子进行打分排序,同时考虑两个因素(Mp):
①与同一类的其它句子的平均相似度(M1);
②句子与给定主题的相似度(M2);
实验
6、Dataset:DUC2005,DUC2006
7、Baseline:
①LeadBase:直接对所有句子排序;
②Random:随机选句子;
③LSA:使用其他学者提出的基于LSA的方法;
④NMFBase:使用其他学者提出的基于NMF的方法;
8、对比实验,分别用不同的方法来处理三个关键步骤:
①句子相似矩阵(SLSS,keyword-based);
②聚类(SNMF,K-means,NMF);
③句子排序方法(Mp,M1,M2);
9、评测方法:ROUGE
10、实验结果
①SLSS与keyword-based对比(SLSS较好);
②聚类方法对比(SNMF较好);
③句子排序方法对比(λ取0.7最好);
④各种方法对比(SLSS+SNMF+Mp最好);
参考资料:
[1]、http://blog.sciencenet.cn/blog-798994-862473.html
以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!