文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)

诸神缄默不语-个人CSDN博文目录

本文是作者在学习文本摘要任务的过程中,根据学习资料总结逐步得到并整理为成文的相关内容。相关学习资料(包括论文、博文、视频等)都会以脚注等形式标明。有一些在一篇内会导致篇幅过长的内容会延伸到其他博文中撰写,但会在本文中提供超链接。
本文将主要列举里程碑式的重要文本摘要论文。
注意:除文首的表格外,本文所参考的论文,如本人已撰写对应的学习博文,则不直接引用原论文,而引用我撰写的博文。

经典文本摘要论文:文本摘要经典论文

1. 按任务类型和解决方案进行总结

1.1 生成式摘要(重写)和抽取式摘要(句子压缩任务)

1.1.1 生成式摘要abstractive summarization

本节内容参考了以下论文的文献综述部分:1

序列生成(文本生成NLG)问题,一般使用seq2seq (S2S) 架构(encoder-decoder架构)。

sentence-fusion和重写(paraphrasing)

rephrasing and introducing new concepts/words(语出Friendly Topic Assistant for Transformer Based Abstractive Summarization

基于结构的方法:

常见问题及针对该问题提出的解决方案:

  1. 文本重复
    1. PGN(Get to the point: Summarization with pointer-generator networks.)中提出的coverage机制就是用来解决这一问题的(虽然我觉得实验上好像文本重复问题还是非常严重)
  2. 事实不一致问题
    1. 衡量原文与摘要的事实一致性:
      The Factual Inconsistency Problem in Abstractive Text Summarization: A Survey
      Assessing The Factual Accuracy of Generated Text
      Multi-Fact Correction in Abstractive Text Summarization
      Evaluating the Factual Consistency of Abstractive Text Summarization
      Asking and Answering Questions to Evaluate the Factual Consistency of Summaries
      FEQA: A Question Answering Evaluation Framework for Faithfulness Assessment in Abstractive Summarization
      Falsesum: Generating Document-level NLI Examples for Recognizing Factual Inconsistency in Summarization
      QAFactEval: Improved QA-Based Factual Consistency Evaluation for Summarization
      Investigating Crowdsourcing Protocols for Evaluating the Factual Consistency of Summaries
    2. 直接解决事实不一致问题:
      Joint Parsing and Generation for Abstractive Summarization
      Masked Summarization to Generate Factually Inconsistent Summaries for Improved Factual Consistency Checking
  3. 文本不连贯(fluent或coherent)
  4. 原文太长,难以直接输入模型(Transformer模型的quadradic复杂度)
    1. 抽取+生成范式
      分成两个阶段:第一步,通过无监督的方法或语言学知识来抽取原文中的关键文本元素(key textual elements)。第二步,用语言学规则或文本生成方法来rewrite或paraphrase抽取出来的元素,生成原文的准确摘要。2
      证明这种范式比直接生成的效果更好:Bottom-Up Abstractive Summarization, Improving neural abstractive document summarization with explicit information selection modeling
    2. 切分数据范式
    3. 改进模型

典型的使用seq2seq+attention范式做生成式摘要的论文:

1.1.2 抽取式摘要extractive summarization

本节内容参考了以下论文的文献综述部分:13

缺点:在话题切换时缺乏连贯性。

  1. Term Frequency-Inverse Document Frequency Method
  2. Cluster Based Method:聚类出各主题,文档表示方法为单词的TF-IDF得分,High frequency term represents the theme of a cluster,基于句子与簇中心的关系选择摘要句
  3. Text Summarization with Neural Network
  4. Text Summarization with Fuzzy Logic
  5. Graph based Method
  6. Latent Semantic Analysis Method: LSA
  7. Machine Learning approach
  8. Query based summarization

常见范式:做句子的二分类任务(该句是否属于摘要),将预测为“属于”的句子拼起来,组成摘要。
identify and then concatenate the most representative sentences as a summary(语出Friendly Topic Assistant for Transformer Based Abstractive Summarization

模型分成3层来做表示学习(单词→句子→文档),使用attention等机制提高表示能力。

  1. 用基于图的表征来捕获显著textual units:TF-IDF similarity(Lexrank: Graph-based lexical centrality as salience in text summarization.) ;discourse relation(Textrank: Bringing order into text.);document-sentence two-layer relations(An exploration of document impact on graph-based multi-document summarization.);multi-modal (Graph-based multi-modality learning for topic-focused multidocument summarization.) 和 query information (Mutually reinforced manifold-ranking based relevance propagation model for query-focused multi-document summarization. )
  2. 使用GNN方法捕获文档间关系:Graph-based neural multi-document summarization.(构建discourse图并用GCN表示textual units); Hierarchical transformers for multi-document summarization.(用entity linking technique捕获句子间的全局依赖,用基于图的神经网络模型对句子进行排序)

使用深度学习方法做抽取式摘要的经典论文:

1.2 单文档摘要和多文档摘要

1.2.1 单文档摘要single-document summarization

主题论文总结4:单文档摘要(以罗列为主)(持续更新ing…)

1.2.2 多文档摘要multi-document summarization

本节内容参考了以下论文的文献综述部分:3

看了几篇MDS的论文感觉无非就是一种长文本摘要啊……有的论文就是单纯把多篇文档拼在一起,用[END]token作间隔。(A Multi-Document Coverage Reward for RELAXed Multi-Document Summarization

输入的多文档可能是冗余的,甚至含有自相矛盾的内容(A common theory of information fusion from multiple text sources step one: cross-document structure.

迁移单文档摘要的模型到多文档摘要上,以回避缺乏小规模数据集的问题:
Generating wikipedia by summarizing long sequences.:定义Wikipedia生成问题,并提出WikiSum数据集。
Towards a neural network approach to abstractive multi-document summarization.

Multi-news: A large-scale multi-document summarization dataset and abstractive hierarchical model. :提出MultiNews数据集,在抽取过程后应用seq2seq模型生成摘要。
Leveraging graph to improve abstractive multi-document summarization.:用显式图表征建模文档间关系,结合预训练语言模型处理长文本。

1.3 重要研究方向

  1. 长文本摘要:主题论文总结4:长文本摘要(持续更新ing…)
  2. 结构化文本摘要:主题论文总结1:structured text summarization(持续更新ing…)_诸神缄默不语的博客-CSDN博客
  3. 对话/会议摘要:主题论文总结2:会议/对话摘要任务(持续更新ing…)_诸神缄默不语的博客-CSDN博客
  4. 维基百科生成:主题论文总结3:维基百科生成任务(持续更新ing…)_诸神缄默不语的博客-CSDN博客
  5. 科技文献(论文)摘要:主题论文总结5:科技文献(论文)摘要

2. 按时代和表现力顺序对摘要模型进行总结

  1. 用规则从文本中抽取重要内容(无监督抽取式摘要)
    1. LEAD-3:直接选择前3句作为摘要(逻辑是认为重要内容前置)
    2. (1958) The Automatic Creation of Literature Abstracts:用词频统计选出关键词。关键词构成簇,选择包含分值最高的簇的句子作为摘要
      简化版算法的不同语言的实现:
      SimpleSummariser (Classifier4J 0.6 API)
      NClassifier - .NET Text Classification and Summarization Library
      Summarization using NLTK
    3. (2004) TextRank4:文本构图,用PageRank算法找出最重要的节点(逻辑和PageRank的类似)
    4. 时代综述
      1. (2007) A Survey on Automatic Text Summarization
    5. 其他参考博文
      1. TF-IDF与余弦相似性的应用(三):自动摘要 - 阮一峰的网络日志
  2. 传统深度学习时代
    1. 生成式摘要
      1. seq2seq模型
        1. RNN
          1. 其他使用该模型,但没有给出代码的工作:LCSTS5
        2. Transformers版
          1. 参考PyTorch官方教程:Language Modeling with nn.Transformer and TorchText — PyTorch Tutorials 1.11.0+cu102 documentation
      2. PGN (Pointer-Generator):主要逻辑是以一定概率从原文复制词语,或者直接生成新词
        1. (2017) PGN6
  3. 前预训练模型时代
    1. (2019) BertSum7:抽取式摘要。用Bert对句子进行表征,用多标签分类的范式选择哪些句子最后被选中到摘要中
    2. (2019) UniLM8:生成式摘要。提出了一种新的预训练模型,统一NLG和NLU:结合多种mask方式,预测完形填空(wordpiece token)
    3. (2020) SPACES9:先抽取后生成的解耦模型。用NEZHA模型对句子进行表征,用多标签分类的范式抽取句子;用UniLM和其他trick实现生成模型

3. 集成性工具

  1. sumy包:sumy · PyPI

4. 评估指标

我专门整理了一篇博文,放到那里了:NLG(自然语言生成)评估指标介绍

5. 其他正文及脚注中未注明的参考资料

  1. 文本摘要(Text Summarization)这一经典NLP任务目前存在什么问题?有什么新的趋势? - 明明如月的回答 - 知乎
  2. BERT时代下的摘要提取长文总结 - 知乎

  1. An Overview of Text Summarization Techniques ↩︎ ↩︎

  2. 转引并改译自LCSTS5
    原始出处:(2015 ACL) Abstractive multi-document summarization via phrase selection and merging. ↩︎

  3. Re5:读论文 TWAG: A Topic-guided Wikipedia Abstract Generator_诸神缄默不语的博客-CSDN博客 ↩︎ ↩︎

  4. Textrank: Bringing order into text. ↩︎

  5. LCSTS: A Large Scale Chinese Short Text Summarization Dataset ↩︎ ↩︎

  6. Get to the point: Summarization with pointer-generator networks. ↩︎

  7. Fine-tune BERT for Extractive Summarization
    官方源代码:nlpyang/BertSum: Code for paper Fine-tune BERT for Extractive Summarization
    热心网友写的可以直接用中文数据作为输入的版本:425776024/bertsum-chinese: chinese bertsum ; bertsum 抽取式模型中文版本;给出案例数据、全代码注释;下载即可训练、预测、学习 ↩︎

  8. Unified Language Model Pre-training for Natural Language Understanding and Generation ↩︎

  9. 苏剑林的介绍博文:SPACES:“抽取-生成”式长文本摘要(法研杯总结) - 科学空间|Scientific Spaces
    官方源代码:bojone/SPACES: 端到端的长本文摘要模型(法研杯2020司法摘要赛道)
    热心网友写的PyTorch版复现(不完全复现):eryihaha/SPACES-Pytorch: 苏神SPACE pytorch版本复现↩︎

  • 7
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诸神缄默不语

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值