【读论文】Character-Level Language Modeling with Deeper Self-Attention(Vanilla Transformer)
当初读这篇论文的目的只有1个:在读Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context这篇文章时,关于infer阶段,作者为啥说Vanilla Transformer每预测一次就要重新计算,而且xl这篇文章的主要比较对象就是Vanilla Transformer,所以才认为读一下这篇Vanilla Trans...
原创
2020-03-24 15:24:30 ·
3322 阅读 ·
0 评论