《Deep Communicating Agents for Abstractive Summarization》论文分享
论文描述:论文是关于生成式摘要,和一般的用seq2seq+attention相比,作者把要输入的长文本划分成多个代理去处理,并用多个encoder编码,最后由一个decoder解码所有的中间向量得到最终的结果。
一、论文摘要:
对于生成式摘要,输入按照:词、句子、段落、单文档、多文档的顺序难度依次递增,文本内容越长,难度越大,这个难度主要体现在网络的记忆能力有限,很难联合较远的输入做出判断,即使有注意力机制,还是有一定的局限性,所以作者就提出了拆分段落成一个个协作agent,每个agent被分配一个段落,每个agent内部有一个encoder,同时所有的agent连接到一个decoder。
二、模型
表示:D表示一篇文档,Xa表示段落(x1表示第一段(agent-1),x2表示第二段……a=1,..M)。表示每一段由长度为I的单词序列组成。而 Wa,i被嵌入到n维向量 ea,i中
三、多agent编码器
本节会剖析整个模型的架构
3.1 每一个agent有下面两个栈编码器编码。
局部编码器(local encoder)
每一个agent的第一层就是局部编码器,每个段落注入到一个agent里面,局部编码器就是一个B-LSTM
产生局部编码隐层状态hi,
(1)
H是隐状态维度,因为是双向的,所有有来自两个方向的隐状态,同时还得加上词向量ea,i.
局部编码器的输出被注入到上下文编码器中。
上下文编码器(contextual encoder)