刨根问底:TextRank

前言

今天看了看去年做的一个文摘的项目,当时尝试了多种方法,包括TextRank、Seq2Seq等多种方案,但是显然生成式摘要的质量要和抽取式摘要明显差一截;

  • Seq2Seq生成式摘要所出现的主要问题包括:
  1. 短语短句的重复生成问题;
  2. 不能准确再现文本中的事实细节;
  3. 还有一个非常棘手的问题就是OOV问题,OOV比例超过3%;
  • 虽然后期尝试了部分大厂在使用的PGN模型,由于基于PGN模型的文摘项目在真实研发过程中遇到的问题较多,所以当时并没有考虑,虽然后期模型实际效果较Seq2Seq模型效果强不少;
  • 就当时而言,迫于时间问题紧急提交了一版TextRank版本模型,鉴于公司内部使用,多个部门领导反馈整体效果还不错,用他们的话说:比没有强多了。

TextRank

其基本思想来源于谷歌的 PageRank算法, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。

我们今天聊TextRank不得不先说一下PageRank
在这里插入图片描述

  • PageRank核心思想:
  • 如果一个网页被很多其他网页连接到的话, 说明这个网页比较重要, 也就是PageRank值会比较高.
  • 如果一个PageRank值很高的网页链接到另一个网页, 那么被链接到的那个网页的PageRank值也会相应的被提高.

TextRank 简介:

TextRank 算法是一种用于文本的基于图的排序算法。
TextRank通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。本身不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。

重点:

  • 基于TextRank的关键词提取
关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。TextRank算法是利用局部词汇之间关系(共现窗口)对后续关键词进行排序,直接从文本本身抽取。其主要步骤如下:

  (1)把给定的文本T按照完整句子进行分割,即

  (2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,即,其中是保留后的候选关键词。

  (3)构建候选关键词图G = (V,E),其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。

  (4)根据上面公式,迭代传播各节点的权重,直至收敛。

  (5)对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。 

  (6)由(5)得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。例如,文本中有句子“Matlab code for plotting ambiguity function”,如果“Matlab”和“code”均属于候选关键词,则组合成“Matlab code”加入关键词序列。

  TextRank源码解析

  1.读入文本,并切词,对切词结果统计共现关系,窗口默认为5,保存大cm中
	 cm = defaultdict(int)
	 #切词
	 words = tuple(self.tokenizer.cut(sentence))
	 for i, wp in enumerate(words): #(enumerate枚举的方式进行)
	 #过滤词性,停用词等
	     if self.pairfilter(wp):
	         for j in xrange(i + 1, i + self.span):
	             if j >= len(words):
	                 break
	             if not self.pairfilter(words[j]):#过滤
	                 continue
	             #保存到字典中
	             if allowPOS and withFlag:
	                 cm[(wp, words[j])] += 1
	             else:
	                 cm[(wp.word, words[j].word)] += 1
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值