动机
-
NAT’s conditional independence assumption prevents learning word interdependency in the target sentence. (解决内部依赖)
-
Previous methods require multiple passes of decoding, its generation speed is measurably slower than the vanilla NAT (我们是single pass decoding during inference)
贡献
-
GLAT achieves parallel text generation with only single decoding pass.
-
GLM adopts a adaptive glancing sampling strategy. (根据预先输出的y~(NAR直接生成)和真实的y的距离决定从y中采样的比例)
-
相比较vanilla NAT,提升大概5BLEU,和AT相比,差0.9BLEU,但是7.9X加速
做法
- The Glancing Language Model
- 首先第一个decoder预先生成Y~
- The Glancing Sampling Strategy
- 根据Y~和真实Y计算距离,Hamming distances(训练的时候Y~和Y长度一致,否则使用Levenshtein distance )
- 从Y中采样一定的比例作为第二个解码器的输入,同时未被替换的用Encoder的隐层表示,对他们进行NAR的预测。计算LOSS,更新第二个decoder
- Inference
- 解码的时候需要决定输出的长度
- noisy parallel decoding (NPD) and
- connectionist temporal classification (CTC)
- 解码的时候需要决定输出的长度
实验
-
WMT14和16的试验
-
不同输入长度模型的比较
-
生成的重复率
- 采样率固定和变化(s表示开始采样率,e:end)