用的是卷积解码器,和已知的经典RNN的seq2seq是不同的,有更好的内容覆盖率
一、定义
导言
文档被组织成主题连贯的文本片段,在讨论的内容方面表现出特定的结构
某些主题可能以特定的顺序进行讨论
(比如描述物种的顺序一般是:类型、发现的地区、栖息地)
任务
和18年WikiSum一样
二、模型
我们的模型由一个结构化的译码器组成,它被训练来预测一系列应该在摘要中讨论的句子主题,并基于这些主题生成句子。
- encoder: CNN
- decoder:
- document-level decoder first generates sentence vectors (LSTM)
- 每一个时间步t,根据 h t − 1 h_{t-1} ht−1和 s t − 1 s_{t-1} st−1用LSTM生成隐状态向量 h t h_{t} ht,通过注意力层输出代表句子的序列向量 s t s_{t} st
- sentence-level decoder is then applied to generate an actual sentence token-by-token(CNN)
- 这个CNN融合了embedding
- 将每个目标词 y t i y_{ti} yti的词表示 w t i w_{ti} wti与表示该词在句子中的位置的向量 e i e_i ei组合, w t i = e m b ( y t i ) + e i w_{ti}= emb(y_{ti}) + e_i wti=emb(yti)+ei
- document-level decoder first generates sentence vectors (LSTM)
主题模型
为了使得the document-level decoder 更加 topic-aware,
把每个句子看做一个文档,并利用LDA模型分析其中隐含的主题列表K,并训练了一个分类器为每一个句子打上最可能的主题标签
(分配的标签貌似是来自句子里的一些关键词)
三、实验
作者用的是自己构造的数据集WIKICATSUM实验,结果如下
自动评价
- 结构化译码器使ROUGE-1 (R1)有了很大的改进
- 使用主题标签(+T)的变体平均提高了+2分
- 有些领域可以作者的模型超过谷歌的Transformer sequence-to-sequence 模型,有些不行
人工评价
- 每个文章问几个问题,读者读完摘要后能否回答这些问题
- (评价摘要是否保留了输入段落中的重要信息)
- 问3个问题,评估总结的总体内容和语言质量
- (Content、Fluency、Succinctness)
四、疑惑
Wikipedia lead section是什么?在维基百科里对应哪部分?
答:
查了一下,应该是在内容表之前的简介部分
sentence-level decoder 是怎么用CNN通过注意机制引入的?
这个得读一下作者引用的CNN-att论文orz