#Paper Reading# Recent Advances in Document Summarization

最新推荐文章于 2020-11-22 21:19:11 发布

John159151

最新推荐文章于 2020-11-22 21:19:11 发布

阅读量1.2k

点赞数

分类专栏： paper reading ADS

本文链接：https://blog.csdn.net/John159151/article/details/68952603

版权

paper reading 同时被 2 个专栏收录

99 篇文章 4 订阅

订阅专栏

ADS

11 篇文章 0 订阅

订阅专栏

论文题目：Recent Advances in Document Summarization
论文地址：http://www.icst.pku.edu.cn/lcwm/wanxj/files/summ_survey_draft.pdf

论文大体内容：
这是PKU万小军老师团队写的关于自动文本摘要技术最近几年发展的概况。作者认为，好的文本摘要，必然是与主题关联的，不冗余的，可读性好的。本文总结了近几年（2011-2016）自动文本摘要技术的一些新方法，包括：
①句子抽取式（extraction）方法，不断在尝试提升概念的覆盖度，信息的多样性以及内容的关联性；
②句子抽取+句子压缩方法，在重点句子上应用句子压缩方法，使得摘要结果更精准；
③句子摘要式（abstraction）方法，重构句子，甚至构造一个全新的句子；
同时，本文还概述了未来自动摘要的发展方向。

1、自动本文摘要有单文档摘要，多文档摘要（现在研究的主要方向）；还能分为一般性摘要（generic summarization），根据用户query生成的摘要（query-focused summarization，目的性更强）。

2、经典的自动文本摘要方法
以前的一些研究，一般都是抽取式的，也有较少的一些能够对句子进行压缩与重组（摘要式）。主要包括3个关键步骤：
（1）句子打分排序
非监督式方法关注于2方面：
①出现次数（frequency）：基于假设出现次数越多，句子越重要；
②中心性（centrality）：句子与其它的句子都很相似，就认为这是中心句；
也有通过概率主题模型（hLDA），HMM，CRF，SVM做的，但基本都是选择重复信息最多的句子。
（2）重要句子选择
①常用的方法是最大化MMR（maximum）：新加入的sentence与query的相似度（正相关），与已有句子的相似度（负相关，防冗余）；
这里写图片描述
②也有通过最小化summary中的词分布的KL散度（minimum）；
③通过线性规划（ILP，integer linear programming）的方式，优化一个带约束的目标函数；

（3）句子重组与排序
由于摘录的句子会存在一些冗余或者不需要的信息，所以常用的做法是先进行句子摘录，接着再进行rule-based compression，但这样会降低摘要的可读性。摘要句子的顺序一般按时间、位置等进行排序。

3、评测方法
评测方法一般有ROUGE，Coverage of Basic Elements，Pyramid SCU。但是这些方法都没办法衡量语法性，冗余性，清晰性，连贯性，所以还是很需要人工的参与。

4、近几年自动文本摘要的论文情况
这里写图片描述

5、句子抽取式（extraction）方法
（1）Improving Concept-based ILP
concept-based ILP是通过统计bigram（二元词语）的出现次数作为weight，然后处理的。就是简单认为出现次数越多，就越重要。改进方法就是：训练一个回归模型来预测句子的分数，先看句子，再看bigram，loss function用ROUGE值来表示。
（2）提升摘要多样性
可以通过最大化次模函数（submodular function maximization）的方法来做。主要思想就是有不同的类别，然后往生成的摘要中加入某一个类别的一个句子，所带来的的得分，会根据该类别中已选择作为摘要的句子数量等有关，从而降低冗余度。
这里写图片描述

（3）Improving Summary Coherence（提升摘要的连贯性）
①非监督式的概率方法：如主题模型，抽取出隐藏的抽象概念（topic），来帮助生成主题连贯的摘要；
②G-FLOW system：使用discourse图（话语图）来解决一致性问题，节点代表文档中的句子，边代表两个句子的discourse关系，可以使用外部数据计算边的权值；
③Rhetorical Structure Theory（修辞结构理论）：构造出一棵树后，只要选择了一个句子，那么这个句子的head sentence也得选；
这里写图片描述
（4）上面三种类型方法的对比

（5）其它的方法
①抽取更中心的句子；
②使用timeline信息来增强摘要效果；
③使用多层神经网络来对句子或者文档进行表示学习；
④……

6、句子压缩方法
（1）摘要压缩
不考虑可读性，仅仅对句子进行词语删除操作来对句子进行压缩，会比选择重要句子达到更好的ROUGE值，因为选取了里面重要的词语。
一般有两种策略：
①先句子抽取，再句子压缩；
②同时进行句子抽取与压缩；
以前的研究中，句子压缩是用frequency-driven scores和tree-trimming rules（语法结构树剪枝）来做的，现在较多的是将multi-task learning引入到supervised compressive summarization或者在一个framework下同时学习extraction model和compression model。
摘要压缩技术需要均衡简洁性与可读性。
（2）完全摘要式自动文本摘要
完全摘要式自动文本摘要生成出的摘要句子，会包含不在原文档中出现的句子或词语，更像人工摘要的形式。主要包括3个研究点：
①simplification（简化）；
②paraphrasing（改写）；
③merging or fusion（融合）；
（3）端到端的摘要式自动文本摘要
如使用RNN+LSTM的方式等等；
这里写图片描述
（4）上面几种类型方法的对比

7、新闻摘要的进展
（1）摘要的新需求
①对比式摘要：某几样观点、物品等作对比；
②更新式摘要：考虑到对于读者以前读过的内容，更新内容后做一个摘要，要突现更新后的内容；
③演变式摘要（evolutionary timeline summarization）：对乱序的内容，生成按时间线发展的摘要；
④多语言式摘要：源文件包含多种语言，最后整合生成一种语言的摘要；
（2）不同领域不同流派的摘要（针对不同的任务、领域、问题需要不同的方法）
①Microblog timeline summarization / Twitter stream summarization：时间线式摘要；
②观点摘要：需要保留原文中的情感信息；
③科学论文摘要：论文中作者写的摘要，通常认为结构性比较差，长度差异较大，且有时是独立于paper而编写的，所以很多学者认为这方面也需要做摘要。
④email，社区问答，电影评论，实体关系等等的摘要任务；
（3）摘要的新应用
①体育新闻的自动撰写；
②自动编写诗词；
③事件编年史的撰写；

8、自动摘要未来发展的方向
①big scale dataset：其实可以看到现有的DUC系列数据集，数据规模都比较小（50篇文档/topic * 50个topic = 2500篇文档），所以自动文本摘要在大规模dataset上将有不同的问题以及需要不同的处理方式；
②评测方法的改进：通过观察常用的ROUGE评测方法，可以发现它只能从词语共现上评测效果，但这明显是不够好的，因为摘要的好坏更需要从语义层面去理解，尤其是可读性等方面，现在仍然没有太好的方法；
③对于query-focused summarization来说，需要通过语义层面去理解query，而不是仅仅表层、字面的匹配，需要计算机去“理解”；
④端到端的神经网络的改进：文档encoding表示学习的改进等；
⑤大规模下的文本摘要；
⑥用户交互式的自动摘要：根据用户不同的需求产生摘要；
⑦多模态自动摘要：除了文本外，图像，声音，视频也可以生成摘要；
⑧Non-factoid QA（非仿真陈述类QA）上的摘要：Factoid QA是仿真陈述类QA，此类系统根据答案语料的资讯，取出一小段内容作为答案，但这样Answer是否合理，是由语料决定的。而Non-factoid QA中为了回答一个问题（定义类、原因类、观点类等），需要从多个文档聚合答案，这就需要对文档进行摘要；

以上均为个人见解，因本人水平有限，如发现有所错漏，敬请指出，谢谢！