信息检索(十二)-- 自动文摘

本节只讲了最朴素的方法,但实际上自动文摘有很多可优化的点,在第六次作业中完成。

1. Sentence Extraction
  • Represent each sentence as a feature vector
  • Compute score based on features
  • Select n highest-ranking sentences
  • Present in order in which they occur in text.
  • Postprocessing to make summary more readable/concise
    • Eliminate redundant sentences
    • Replace anaphors/pronouns with noun phrases they refer to (指代消解)
    • Delete subordinate clauses, parentheticals

根据句子的相似度+类pagerank方法来得到句子的重要程度。
在这里插入图片描述

在sentence extraction中,经常要加上一些feature:

  • Fixed-phrase feature: certain phrases indicate summary, e.g. “in summary"
  • Paragraph feature: Paragraph initial/final more likely to be important.
  • Thematic word feature: Repetition is an indicator of importance
  • Uppercase word feature: Uppercase often indicates named entities. (Taylor)
  • Sentence length cut-off: Summary sentence should be > 5 words.
2. TextRank: Bringing Order into Text

把文章中的所有phrase抽取出来,如果一个词B落在以中心词A为中心,窗口大小为k的窗口中,A-B之间就增加一条边。每个短语的重要性就按照类似pagerank的方法来做。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Rouge评测

co-reference 指代消解

文本结构的检测:Lexical chain(词汇链)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值