Pointer-Generator Networks(指针生成网络)
随着互联网的飞速发展,产生了越来越多的文本数据,文本信息过载问题变得日益严重,对各类文本进行 "降维" 处理显得非常必要,文本摘要便是其中一个重要的手段。
文本摘要根据摘要方法的不同可分为:
1、抽取式文本摘要:直接从原文中选取若干条重要的句子,并对它们进行排序和重组而形成摘要的方法。
2、生成式文本摘要:允许生成新的词语、原文本中没有的短语来组成摘要。
使用 Seq2Seq 模型可以完成生成式摘要任务,但存在两个问题:
1、OOV(Out-of-vocabulary 未登陆词)—训练集中未出现但测试集中出现的词
摘要总结的结果有的时候并不准确,比如摘要的结果可能输出 "德国队以 2-1 比分击败阿根廷",但实际比分是 2-0,出现这个原因是 out-of-vocabulary words(OOV) 的出现。
2、Word-Repetition 问题
摘要结果会出现 repeat(重复) 的信息