#Paper Reading# Recent Advances in Document Summarization

论文题目:Recent Advances in Document Summarization
论文地址:http://www.icst.pku.edu.cn/lcwm/wanxj/files/summ_survey_draft.pdf

论文大体内容:
这是PKU万小军老师团队写的关于自动文本摘要技术最近几年发展的概况。作者认为,好的文本摘要,必然是与主题关联的,不冗余的,可读性好的。本文总结了近几年(2011-2016)自动文本摘要技术的一些新方法,包括:
①句子抽取式(extraction)方法,不断在尝试提升概念的覆盖度,信息的多样性以及内容的关联性;
②句子抽取+句子压缩方法,在重点句子上应用句子压缩方法,使得摘要结果更精准;
③句子摘要式(abstraction)方法,重构句子,甚至构造一个全新的句子;
同时,本文还概述了未来自动摘要的发展方向。

1、自动本文摘要有单文档摘要,多文档摘要(现在研究的主要方向);还能分为一般性摘要(generic summarization),根据用户query生成的摘要(query-focused summarization,目的性更强)。

2、经典的自动文本摘要方法
以前的一些研究,一般都是抽取式的,也有较少的一些能够对句子进行压缩与重组(摘要式)。主要包括3个关键步骤:
(1)句子打分排序
非监督式方法关注于2方面:
①出现次数(frequency):基于假设出现次数越多,句子越重要;
②中心性(centrality):句子与其它的句子都很相似,就认为这是中心句;
也有通过概率主题模型(hLDA),HMM,CRF,SVM做的,但基本都是选择重复信息最多的句子。
(2)重要句子选择
①常用的方法是最大化MMR(maximum):新加入的sentence与query的相似度(正相关),与已有句子的相似度(负相关,防冗余);
这里写图片描述
②也有通过最小化summary中的词分布的KL散度(minimum);
③通过线性规划(ILP,integer linear programming)的方式,优化一个带约束的目标函数;
这里写图片描述
(3)句子重组与排序
由于摘录的句子会存在一些冗余或者不需要的信息,所以常用的做法是先进行句子摘录,接着再进行rule-based compression,但这样会降低摘要的可读性。摘要句子的顺序一般按时间、位置等进行排序。

3、评测方法
评测方法一般有ROUGE,Coverage of Basic Elements,Pyramid SCU。但是这些方法都没办法衡量语法性,冗余性,清晰性,连贯性,所以还是很需要人工的参与。

4、近几年自动文本摘要的论文情况
这里写图片描述

5、句子抽取式(extraction)方法
(1)Improving Concept-based ILP
concept-based ILP是通过统计bigram(二元词语)的出现次数作为weight,然后处理的。就是简单认为出现次数越多,就越重要。改进方法就是:训练一个回归模型来预测句子的分数,先看句子,再看bigram,loss function用ROUGE值来表示。
(2)提升摘要多样性
可以通过最大化次模函数(submodular function maximization)的方法来做。主要思想就是有不同的类别,然后往生成的摘要中加入某一个类别的一个句子,所带来的的得分,会根据该类别中已选择作为摘要的句子数量等有关,从而降低冗余度。
这里写图片描述
这里写图片描述
(3)Improving Summary Coherence(提升摘要的连贯性)
①非监督式的概率方法:如主题模型,抽取出隐藏的抽象概念(topic),来帮助生成主题连贯的摘要;
②G-FLOW system:使用discourse图(话语图)来解决一致性问题,节点代表文档中的句子,边代表两个句子的discourse关系,可以使用外部数据计算边的权值;
③Rhetorical Structure Theory(修辞结构理论):构造出一棵树后,只要选择了一个句子,那么这个句子的head sentence也得选;
这里写图片描述
(4)上面三种类型方法的对比
这里写图片描述
(5)其它的方法
①抽取更中心的句子;
②使用timeline信息来增强摘要效果;
③使用多层神经网络来对句子或者文档进行表示学习;
④……

6、句子压缩方法
(1)摘要压缩
不考虑可读性,仅仅对句子进行词语删除操作来对句子进行压缩,会比选择重要句子达到更好的ROUGE值,因为选取了里面重要的词语。
一般有两种策略:
①先句子抽取,再句子压缩;
②同时进行句子抽取与压缩;
以前的研究中,句子压缩是用frequency-driven scores和tree-trimming rules(语法结构树剪枝)来做的,现在较多的是将multi-task learning引入到supervised compressive summarization或者在一个framework下同时学习extraction model和compression model。
摘要压缩技术需要均衡简洁性与可读性。
(2)完全摘要式自动文本摘要
完全摘要式自动文本摘要生成出的摘要句子,会包含不在原文档中出现的句子或词语,更像人工摘要的形式。主要包括3个研究点:
①simplification(简化);
②paraphrasing(改写);
③merging or fusion(融合);
(3)端到端的摘要式自动文本摘要
如使用RNN+LSTM的方式等等;
这里写图片描述
(4)上面几种类型方法的对比
这里写图片描述

7、新闻摘要的进展
(1)摘要的新需求
①对比式摘要:某几样观点、物品等作对比;
②更新式摘要:考虑到对于读者以前读过的内容,更新内容后做一个摘要,要突现更新后的内容;
③演变式摘要(evolutionary timeline summarization):对乱序的内容,生成按时间线发展的摘要;
④多语言式摘要:源文件包含多种语言,最后整合生成一种语言的摘要;
(2)不同领域不同流派的摘要(针对不同的任务、领域、问题需要不同的方法)
①Microblog timeline summarization / Twitter stream summarization:时间线式摘要;
②观点摘要:需要保留原文中的情感信息;
③科学论文摘要:论文中作者写的摘要,通常认为结构性比较差,长度差异较大,且有时是独立于paper而编写的,所以很多学者认为这方面也需要做摘要。
④email,社区问答,电影评论,实体关系等等的摘要任务;
(3)摘要的新应用
①体育新闻的自动撰写;
②自动编写诗词;
③事件编年史的撰写;

8、自动摘要未来发展的方向
①big scale dataset:其实可以看到现有的DUC系列数据集,数据规模都比较小(50篇文档/topic * 50个topic = 2500篇文档),所以自动文本摘要在大规模dataset上将有不同的问题以及需要不同的处理方式;
②评测方法的改进:通过观察常用的ROUGE评测方法,可以发现它只能从词语共现上评测效果,但这明显是不够好的,因为摘要的好坏更需要从语义层面去理解,尤其是可读性等方面,现在仍然没有太好的方法;
③对于query-focused summarization来说,需要通过语义层面去理解query,而不是仅仅表层、字面的匹配,需要计算机去“理解”;
④端到端的神经网络的改进:文档encoding表示学习的改进等;
⑤大规模下的文本摘要;
⑥用户交互式的自动摘要:根据用户不同的需求产生摘要;
⑦多模态自动摘要:除了文本外,图像,声音,视频也可以生成摘要;
⑧Non-factoid QA(非仿真陈述类QA)上的摘要:Factoid QA是仿真陈述类QA,此类系统根据答案语料的资讯,取出一小段内容作为答案,但这样Answer是否合理,是由语料决定的。而Non-factoid QA中为了回答一个问题(定义类、原因类、观点类等),需要从多个文档聚合答案,这就需要对文档进行摘要;

以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
非负矩阵分解(Nonnegative Matrix Factorization,NMF)是一种用于数据降维和特征提取的有效方法。近期IEEE的ICASSP会议中,对非负矩阵分解的研究取得了一系列的进展。 一方面,近期的研究推动了非负矩阵分解在各种领域的应用。例如,在音频信号处理中,研究者们使用非负矩阵分解来从混合音频中分离出不同的音频源。这种方法在语音识别、音乐分析等领域有着广泛的应用。此外,在图像处理中,非负矩阵分解也被用于图像压缩、目标识别等任务中。 另一方面,针对非负矩阵分解的算法优化也取得了显著的进展。研究人员提出了一些新的目标函数和约束条件,以提高非负矩阵分解的性能。例如,通过引入稀疏性约束,研究者们可以更好地处理高维数据,并提取出更具有代表性的特征。此外,还有一些基于梯度下降和交替最小化的优化算法被提出,以加速非负矩阵分解的计算过程。 非负矩阵分解在机器学习和模式识别领域也备受关注。研究人员探索了将非负矩阵分解与其他机器学习方法相结合的可能性。例如,将非负矩阵分解应用于协同过滤中,可以提高推荐系统的准确性。此外,研究人员还探索了将非负矩阵分解与深度学习相结合的方法,以提高图像和音频处理的性能。 综上所述,IEEE ICASSP会议上关于非负矩阵分解的最新研究成果,不仅推动了该方法在多个领域的应用,还通过算法优化和和其他方法的结合,提高了非负矩阵分解的性能和应用范围。这些进展为我们更好地利用非负矩阵分解来处理和分析数据提供了新的思路和方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值