·自动摘要技术·
发展历史:
20世纪50年代,自动摘要(和机器翻译)被提出:对给定文本提取包含最重要信息的描述-摘要。一个代表性研究由H. P. Luhn提出,用程序对机器可读形式的完整文本进行分析,用词频及其分布的统计信息来计算重要性度量的方式。
1969年,Harold P Edmundson 描述了一个基于关键短语的范例,除了标准频率依赖权重之外,还使用以下三种方法来确定句子权重:Cue Method,Title Method,Location Method。
1990年,LSA(隐语义分析)被Susan Dumais等人提出
2001年,LSA 被 Yihong Gong 和 Xin Liu 提出为新闻领域中的单/多文档摘要选择高排名的句子。
抽取式摘要方法大多是启发式计算句子分数,没有概率角度的解释,于是开始转向贝叶斯方法
2003年,Andrew Y. Ng等人提出 LDA(隐狄利克雷分布),结合了贝叶斯思想的概率隐性语义分析(pLSA)。
2015年,Ming Zhou等人在RNN上对多文档摘要进行句子排名,利用分层回归计算句子、短语在解析树中的显著性从而实现提取内容和过滤冗余,R2N2在DUC 2001,2002和2004多文档摘要数据集上是最先进的摘要生成方法。
基于RNN的自动摘要方法对短文本非常好,而对长文本生成的摘要会有冗余和不连贯问题