1 短版
自动生成文本摘要主要有两类方法,第一类是通过关键词,位置等多种特征,摘取原文内容做摘要,简称“摘取式摘要”。第二类是通过深度学习模型学习大量数据进行编码,解码,产生抽象的摘要内容,摘要内容来源不限于原文内容,简称“生成式摘要”。
第一类方法是传统摘要方法,常见应用于新闻摘要,但是该方法扩展性,通用性很有限,难以适应多变的文本内容。
第二类方法是最新基于深度学习的方法,可以应用于各种文本,不过生成的摘要通常是一句话,不适合生成比较长的摘要(难度太大)。这种方法是近两年,学术界研究的热点内容。主要模型就是深度学习的模型之一,Seq2Seq 模型,同时加上Attention学习机制。其中Seq2Seq模型,是由两个深度学习模型组成,一个负责对原文进行编码(encode),一个负责对摘要进行解码(decode),通常采用RNN模型(包含LSTM,GRN等变种模型),也可以使用其他深度学习模型。
Seq2Seq模型示意图:
由于近些年深度学习的发展很热,在2015年到2016年期间,学术界出现了大量基于深度学习(主要是Seq2S