文本摘要概述

17 篇文章 0 订阅
12 篇文章 1 订阅

文本概要就是从一大段文字里提取关键信息,做概括。主要分为抽取式和生成式。

抽取式extractive

抽取式最常用的算法是TextRank,TextRank 算法是一种用于文本的基于图的排序算法,通过把文本分割成若干组成单元(句子),构建节点连接图,用句子之间的相似度作为边的权重,通过循环迭代计算句子的TextRank值,最后抽取排名高的句子组合成文本摘要。抽取式摘要产生的总结的基本单元(句子/短语)一定是在原文中出现过的,是对原文的挑选堆叠。

参考:http://blog.itpub.net/31562039/viewspace-2286669/
TextRank算法是在PageRank算法的启发下产生的。PageRank算法起初被用来衡量网页的重要性,假设有四个网页,w1、w2、w3、w4,其指向关系如下:
在这里插入图片描述
其中页面w3并未与任何页面链接,我们称之为悬空页面。
我们画个表来描述页面之间的跳转概率关系:
在这里插入图片描述
其中悬空页面跳转到其他页面的概率相等。

之后利用矩阵乘法进行迭代,我们知道M代表页面经过一次跳转后页面之间的跳转概率,而M*M则为页面经过两次跳转之后各页面之间的跳转概率…迭代多次后即为页面经过多次跳转后页面间跳转的概率,由于矩阵中各元素初值<1,其必收敛。最后我们取多次迭代后的近似收敛值,用与其他页面的相关性对网页进行排序。取出与其他页面相关性最大的。

在TextRank中,我们将网页换成句子/短语,将跳转概率换为相似度,最后取与其他句子关联度最大的作为关键句,抽取出来作为摘要。当然实际的算法是进行过改进的,且是将矩阵转化为图计算的:
在这里插入图片描述

生成式abstractive

常用的技术是Seq2Seq,应对这种问题有一个经典框架——Encoder-Decoder,编码与解码。
是不是很熟悉?没错,bert就是用的Encoder-Decoder框架。
seq2seq就是你输入一个序列,我给你输出另一个对应的序列。在机器翻译中,输入序列是待翻译的文本,输出序列是翻译后的文本;在问答系统中,输入序列是提出的问题,而输出序列是答案。
Encoder-Decoder框架,也就是两个过程——编码和解码。编码就是将输入序列转化成一个固定长度的向量;解码就是将之前生成的固定向量再转化成输出序列。
可以参考我之前讲transformer的博文:https://blog.csdn.net/qq_43012160/article/details/100782291

这篇博文讲了一下现在生成式的短板,可以看一下:
https://blog.csdn.net/qq_37175369/article/details/80916692

后面应该是会具体对这一块做研究。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值