自动摘要技术发展

自动摘要技术自20世纪50年代提出以来,经历了从统计方法到深度学习的发展。从Luhn的词频分析,到Edmundson的关键短语方法,再到LSA、LDA等主题模型,直至现代的RNN和biLSTM结构,自动摘要技术不断进步。常用模型包括Bag Of Words、Word2Vec和LDA等。代表系统如TextTeaser、TextRank和OpenNMT等,面临冗余、连贯性等挑战。主要数据集有DUC、Gigaword、CNN/Daily Mail等。开放API如Sumy-Python和Textsum-Google为研究和应用提供了便利。
摘要由CSDN通过智能技术生成

·自动摘要技术·

发展历史:

​ 20世纪50年代,自动摘要(和机器翻译)被提出:对给定文本提取包含最重要信息的描述-摘要。一个代表性研究由H. P. Luhn提出,用程序对机器可读形式的完整文本进行分析,用词频及其分布的统计信息来计算重要性度量的方式。
​ 1969年,Harold P Edmundson 描述了一个基于关键短语的范例,除了标准频率依赖权重之外,还使用以下三种方法来确定句子权重:Cue Method,Title Method,Location Method。
​ 1990年,LSA(隐语义分析)被Susan Dumais等人提出
​ 2001年,LSA 被 Yihong Gong 和 Xin Liu 提出为新闻领域中的单/多文档摘要选择高排名的句子。

抽取式摘要方法大多是启发式计算句子分数,没有概率角度的解释,于是开始转向贝叶斯方法

​ 2003年,Andrew Y. Ng等人提出 LDA(隐狄利克雷分布),结合了贝叶斯思想的概率隐性语义分析(pLSA)。
​ 2015年,Ming Zhou等人在RNN上对多文档摘要进行句子排名,利用分层回归计算句子、短语在解析树中的显著性从而实现提取内容和过滤冗余,R2N2在DUC 2001,2002和2004多文档摘要数据集上是最先进的摘要生成方法。

基于RNN的自动摘要方法对短文本非常好,而对长文本生成的摘要会有冗余和不连贯问题

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值