创新实训(8)-NLP文本摘要学习

最新推荐文章于 2023-05-19 15:05:09 发布

ttxs69

最新推荐文章于 2023-05-19 15:05:09 发布

阅读量939

点赞数

分类专栏：创新实训文章标签：人工智能

本文链接：https://blog.csdn.net/qq_34842847/article/details/107033809

版权

本文介绍了自然语言处理中的文本摘要，重点关注单文档、有监督、抽取式和生成式摘要。抽取式摘要通过算法抽取关键句，如TextRank，Seq2Seq方法；生成式摘要允许创造新内容，Seq2Seq模型配合Copy和Coverage机制能有效缓解相关问题。评价方法主要为ROUGE指标，常用数据集包括CNN/Daily Mail和LCSTS。

摘要由CSDN通过智能技术生成

创新实训(8)-NLP文本摘要学习

1.简介

文本摘要，即将一段长文本转换为体现其中心内容的短文本。文本摘要按照输入类型可分为单文档摘要和多文档摘要。单文档摘要从给定的一个文档中生成摘要，多文档摘要从给定的一组主题相关的文档中生成摘要。按照输出类型可分为抽取式摘要和生成式摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要，摘要全部来源于原文。生成式摘要根据原文，允许生成新的词语、短语来组成摘要。按照有无监督数据可以分为有监督摘要和无监督摘要。本文主要关注单文档、有监督、抽取式、生成式摘要。

2.抽取式摘要

抽取式摘要主要式通过一定的算法从原文中计算关键词和关键句子来组成摘要。这种方法天然就在语法和句法上错误率低，保证了一定的效果。基于一个假设：一篇文档的核心思想可以用文档中的某一句或者几句话来概括。因此，文本摘要的任务就变成了找到文本中最重要的几句话，这通常是一个排序问题。传统的抽取式摘要方法使用图方法，聚类等方式完成无监督摘要。目前比较流行的基于神经网络的抽取式摘要往往将问题建模为序列标注和句子排序两类任务。下面首先介绍传统的抽取式摘要方法，接着简述基于神经网络的抽取式摘要方法。