基于句子嵌入的无监督文本摘要(附代码实现)

本文介绍了无监督文本摘要的方法,主要应用于邮件摘要。通过数据清洗、语言检测、句子分割、Skip-Thought编码、聚类和摘要生成等步骤,实现自动文本摘要。该方法适用于多种语言,对邮件等长文本进行有效精简。
摘要由CSDN通过智能技术生成

©PaperWeekly· 作者|高开远

学校|上海交通大学

研究方向|自然语言处理

本文主要介绍的是一个对多种语言的邮件进行无监督摘要抽取的项目,非常详细。文本摘要也是非常有意思的 NLP 任务之一。

A Glance at Text Summarization

文本摘要是从一个或多个源中提取最重要信息,并为特定用户(或多个用户)和任务(或多个任务)生成简短版本的过程。 

-- Advances in Automatic Text Summarization, 1999. 

文本摘要对于人类来说是非常简单的,因为人类天生地具有理解自然语言的能力,并可以提取显著特征以使用自己的文字来总结文档的重点。但是,在当今世界中数据爆炸增长,缺乏人力和时间来解析数据,因此自动文本摘要方法至关重要,主要有以下几个原因: 

  • 自动摘要可以缩短文本阅读时间,提高效率; 

  • 当搜索我们所需要的文本时,有摘要可以更为容易查找到;

     

  • 自动摘要提高了索引的效率; 

  • 相比于人力摘要,自动摘要更无偏; 

  • 个性化的摘要在问答系统中非常有用,因为它们提供了个性化的信息; 

  • 使用自动或半自动摘要系统使商业抽象服务能够增加它们处理的文本文档的数量。 

文本摘要的分类

文本摘要方法可以被总结为以下不同的类别:

Based on input type 

1. 单文档:输入长度较短,许多早期的摘要系统主要处理单个文档摘要; 

2. 多文档:输入可以是任意长的。 

Based on the purpose 

1. 通用模型:模型对摘要的文本的领域或内容不做任何假设,并将所有输入视为同类输入。目前大部分已经完成的工作都是围绕着通用的总结; 

2. 领域适应模型:模型使用领域特定的知识来形成更准确的摘要。例如,总结某一特定领域的研究论文、生物医学文献等; 

3. 基于 query 模型:摘要只包含回答有关输入文本的自然语言问题的信息。 

Based on output type 

1. 抽取式模型:从输入文本中选择重要的句子形成摘要,当今大多数的总结方法本质上都是抽取式的。 

2. 生成式模型:模型形成自己的短语和句子,提供更连贯的总结,就像人类在面对文本摘要时会做的那样。这种方法肯定更有吸引力,但比提取摘要困难得多。

文本摘要流程

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值