自动摘要技术发展

最新推荐文章于 2023-12-31 01:08:23 发布

Tinkle2015

最新推荐文章于 2023-12-31 01:08:23 发布

阅读量1.1k

点赞数

分类专栏：机器学习数学算法文章标签：自动摘要 LDA

本文链接：https://blog.csdn.net/Tinkle2015/article/details/97576850

版权

自动摘要技术自20世纪50年代提出以来，经历了从统计方法到深度学习的发展。从Luhn的词频分析，到Edmundson的关键短语方法，再到LSA、LDA等主题模型，直至现代的RNN和biLSTM结构，自动摘要技术不断进步。常用模型包括Bag Of Words、Word2Vec和LDA等。代表系统如TextTeaser、TextRank和OpenNMT等，面临冗余、连贯性等挑战。主要数据集有DUC、Gigaword、CNN/Daily Mail等。开放API如Sumy-Python和Textsum-Google为研究和应用提供了便利。

摘要由CSDN通过智能技术生成

·自动摘要技术·

发展历史：

20世纪50年代，自动摘要（和机器翻译）被提出：对给定文本提取包含最重要信息的描述-摘要。一个代表性研究由H. P. Luhn提出，用程序对机器可读形式的完整文本进行分析，用词频及其分布的统计信息来计算重要性度量的方式。
1969年，Harold P Edmundson 描述了一个基于关键短语的范例，除了标准频率依赖权重之外，还使用以下三种方法来确定句子权重：Cue Method，Title Method，Location Method。
1990年，LSA（隐语义分析）被Susan Dumais等人提出
2001年，LSA 被 Yihong Gong 和 Xin Liu 提出为新闻领域中的单/多文档摘要选择高排名的句子。

抽取式摘要方法大多是启发式计算句子分数，没有概率角度的解释，于是开始转向贝叶斯方法

2003年，Andrew Y. Ng等人提出 LDA（隐狄利克雷分布)，结合了贝叶斯思想的概率隐性语义分析（pLSA）。
2015年，Ming Zhou等人在RNN上对多文档摘要进行句子排名，利用分层回归计算句子、短语在解析树中的显著性从而实现提取内容和过滤冗余，R2N2在DUC 2001,2002和2004多文档摘要数据集上是最先进的摘要生成方法。