创新实训(8)-NLP文本摘要学习

本文介绍了自然语言处理中的文本摘要,重点关注单文档、有监督、抽取式和生成式摘要。抽取式摘要通过算法抽取关键句,如TextRank,Seq2Seq方法;生成式摘要允许创造新内容,Seq2Seq模型配合Copy和Coverage机制能有效缓解相关问题。评价方法主要为ROUGE指标,常用数据集包括CNN/Daily Mail和LCSTS。
摘要由CSDN通过智能技术生成

创新实训(8)-NLP文本摘要学习

1.简介

文本摘要,即将一段长文本转换为体现其中心内容的短文本。文本摘要按照输入类型可分为单文档摘要和多文档摘要。单文档摘要从给定的一个文档中生成摘要,多文档摘要从给定的一组主题相关的文档中生成摘要。按照输出类型可分为抽取式摘要和生成式摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文。生成式摘要根据原文,允许生成新的词语、短语来组成摘要。按照有无监督数据可以分为有监督摘要和无监督摘要。本文主要关注单文档、有监督、抽取式、生成式摘要。

2.抽取式摘要

抽取式摘要主要式通过一定的算法从原文中计算关键词和关键句子来组成摘要。这种方法天然就在语法和句法上错误率低,保证了一定的效果。基于一个假设:一篇文档的核心思想可以用文档中的某一句或者几句话来概括。因此,文本摘要的任务就变成了找到文本中最重要的几句话,这通常是一个排序问题。传统的抽取式摘要方法使用图方法,聚类等方式完成无监督摘要。目前比较流行的基于神经网络的抽取式摘要往往将问题建模为序列标注和句子排序两类任务。下面首先介绍传统的抽取式摘要方法,接着简述基于神经网络的抽取式摘要方法。

2.1 TextRank

在文档摘要问题中,基于图的排序算法,是以文档的每句话作为节点,句子之间的相似度作为边的权值构构建图模型,用PageRank算法进行求解,得到每个句子的得分,代表算法有TextRank和LexRank。

2.2 Seq2Seq方式

之前的抽取式摘要往往建模句子级别的表示,忽略了关键词的作用。ACL18 中,Jadhav and Rajan等人直接使用 Seq2

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值