看图学大模型:Transformers 的前生今世(中)
至此,Transformers 大部分零件已经凑齐, Let's Roll Out.Transformers 也是为了机器翻译设计的,回顾一下 Transformers 之前的机器翻译模型,大多还是 RNN Encoder-Decoder 的范式,但是这样也就继承了 RNN 的所有问题。通过堆叠 RNN,扩大参数量确实也取得了一定的效果,比如 Seq2Seq。但是 Bahdanau Attention 出现后,让研究人员看到了另外一种可能。





















