前段时间,因为工作需要,对智能摘要做了调研,主要集中在神经网络方法,主要方法是生成式 abstract方法,应用seq2seq生成居多。(因调研报告写在word中,将word中图片需要存起来再贴到文章中,太耗时,就省去图片了,本文具体用处可以作为智能摘要的引导文章,重点可看框架和参考文献,相应图片自行补齐吧)
文章主要分五个部分:
1. 开放数据
2. 智能摘要形式
3. 评价指标
4. 模型发展
5. 参考文献
一、开放数据集
DUC, Daily Mail/CNN, Gigaword, LCSTS(唯一中文微博标题生成语料)[1]
二、智能摘要形式
Extract (抽取式,优点:语法无误,缺点:压缩性不高,句子间衔接不够通顺)
Abstract(生成式,优点:通顺,压缩性高;缺点:重复,oov问题)
三、评价指标[2-4]
Rouge-1
Rouge-2
Rouge-L
BLEU
四、模型发展
本文调研主要是智能标题的生成,headline形式对语义压缩要求较高,一般应该使用Abstract形式,故本文调研主要集中在神经网络在Abstract生成中应用
4.1 神经网络在Extract 形式的发展
a) Extract模型分类算法
Su