文本摘要之Textrank优化方案

当前文本摘要的处理方式主要分为两类:抽取式和生成式。

       抽取式文本摘要:即从篇章中抽取能够代表核心意思的信息,或者抽取关键词再连句,或者抽取完整句子。一般情况下,由词直接连成的句子,往往比较生硬,不够通顺,抽取的句子句义连贯,

能比较有效的代表篇章信息。生成的方法理论上可以兼顾关键词信息和句子的自然属性,如通顺,连贯。

 

抽取式文本摘要代表:TextRank方法,利用文章内部的联系计算出重要的词或句子。生成式文本摘要代表:Seq2eq +Attention,借助深度学习方法学习文章主要含义再生成句子。长期来看,

采用生成式的自动文本摘要方案较好,产生的摘要更理想。综合分析了自动文本摘要的抽取式方案和生成式方案,相比生成式方案前者开发难度较低、时耗、设备等成本有明显优势,由此确立了TextRank抽取式文本摘要方案。

 

本项目所用算法基于FastTextRank(由TextRank改进而来)算法优化而来,能较好地适应聊天语料文本较短、信息离散、话题转变快等特性。原始的FastTextRank(简称“FTR”)算法

只是单独从文章中抽取关键词或整个句子进行利用,没有充分将二者结合。实际上,那些句子的重要程度在很大程度上由其包含的词的重要性决定。基于此特性,确立了两种优化角度:

其一,先用FTR计算出文中各个词语的重要性得分score,根据每个句子包含的词计算出这个句子的重要性得分,对各个句子的得分进行排序;其二,用FTR计算出全文每个词语的得分word_score,

再通过FTR计算出每个句子的得分sen_score,由关键词对句子的影响计算一个权重,调整句子的最终打分。

公式(1)为原始TextRank计算公式,其中vi、vj为节点,分别代表当前词(句子)和其入度对应的节点,会随着迭代更新。

wji代表节点j和i之间边的权重,初始化时就已确定,可视作常量,不会随着迭代变化。

当wji代表词间联系时,可以用频率表示,在任意窗口k[1]内,若两个词一起出现(称为“共现”,两个词未必连续,都在窗口内即可),则认为这两个词之间存在边,

wji可加1。两个词在所有窗口中共现的次数,即为wji的值。其计算公式如下:

(ij)代表词i和词j出现在同一个窗口。

       当wji代表两个句子时,可以用句子相似度表示二者的联系。原始TextRank中使用公共词表示句子相似度,为了削弱长句的优势(长句更容易出现公共词)对句长取对数,见公式(3);

也可用向量表征两个句子,通过计算向量余弦值表示二者相似度,见公式(4)。

优化方案一

       使用FTR抽取关键词,直接计算每个句子的得分,计算方式如下:

在公式(5)中,S为当前计算的句子,wj为其中的词,scorewj为词wj的得分,|wj|为该词长度。式(5)的前半部分为句子的默认分,后半部分为关键词对其的影响加分,并不完全依赖于关键词打分。

优化方案二

       使用FTR抽取关键词,使用FTR计算每个句子的得分,利用关键词重新对句子打分,计算方式如下:

 公式(6)中,score为句子原始得分,其余参数说明与公式(5)相同。

 

[1] 文本中一段长度为k的连续字符称为窗口,如“一个公司”,k取2时,可得3个窗口<[一个],[个公],[公司]>。 

 

 

 

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值