文章目录
前言
论文名:Character-Level Language Modeling with Deeper Self-Attention
论文作者:Rami Al-Rfou et.al.
机构:
Google AI Language
期刊/会议名:AAAI 2019
本文作者:XMU_MIAO
日期:2021/1/16
摘要
LSTM以及RNN的变种已经展示了在构建字符级别语言模型的卓越性能,这些模型通常是使用随时间截断的反向传播( TBTT,Truncated Backpropagation Through Time)来训练的,而且通常认为它们的成功源于它们记忆长期上下文的能力。。本文,我们展示了一个固定上下文的深度的(64层)transformer模型性能大大优于RNN的变种,在两个流行的benchmarks上取得了最好的效果:在text8上1.13 bits/char,在enwik8上1.06
为了在这样的深度(64层)取得较好的效果,我们证实了在网络的中间层和中间序列位置增加额外的损失是很重要的。
1、问题背景以及本文要解决的问题
1.1 字符级别的语言模型
对文本进行字符级别的语言建模是一大挑战,存在以下一些原因:
- 模型要从头学习大词表中的词
- 一般的文本在数百甚至上千的时间步的距离上显示依赖性
- 文本的字符序列较文本的词序列更长,因而也需要更多时间步的计算
1.2 RNN(变种)如何解决字符级别的语言模型
RNN在文本序列的每个mini-batch上训练,使用序列长度相对较短(即200个tokens)。为了能够处理长序列的上下文,需要按顺序训练min-batch的文本,前一个mini-batch的文本的隐藏层状态会前向传播到当前的mini-batch的文本。此过程称为TBTT(Truncated Backpropagation Through Time)。总之,RNN-based模型利用TBTT(或相关改进算法)处理长文本数据。
1.3 本文要解决的问题
本文证实了非循环(non-recurrent)模型在字符级别的语言建模上能够取得更好的效果,利用基于self-attention的深度模型进行语言建模,为利于模型收敛,增加了一些额外的损失,此外,位置编码也做了一些改变。
2、如何解决该问题?
本文采用基于self-attention的深度网络来处理固定长度的文本输入,确切地说,基于self-attention的深度网络的每一层包括:一个多头self-attention子层,后跟着一个包含两个全连接子层的前馈神经网络。除此之外,为了加速深度模型(64层)的收敛,在中间层和中间位置加上了一些额外的损失函数。
2.1 Transformer Encoder with Causal Attention
如下图所示(图源original transformer:Attention Is All You Need),本文采用的深度模型是一个多头self-attention子层加上一个有两个全连接子层构成的FFN。
除此之外,为了使得模型符合语言模型的形式,self-attention部分采用了causal-attention,即,每个字符只能关注到其之前出现的字符。这有点类似于original transformer解码器部分的"masked attention"。如下图所示:
2.2 Auxiliary Losses
为加速深度模型的收敛