1.seq2seq
一般在我们序列模型当中,都会分为encoder和decoder两个部分,如下图所示:
而我们的transformer变形金刚其实相当于是一种对我们seq2seq的一种升级版本,也就是在seq2seq上加上了self-attention,也就变成了我们的transformer,我们可以看到transformer的结构如下所示:
在上面这张图当中,左边的就是我们的的encoder,而右边则是我们的decoder。只是这个encoder和decoder都特别的大哈哈哈
2.Encoder的架构
encoder的架构总体来说是这样的,我们输入一排向量,然后相应的,会输出一排向量。而在我们的输入和输出之间,输入最先经过的层是一个self-attention层。