学习李沐老师讲解Transformer知识点记录(更新)
1CNN通过卷据核看一张图像时只能看到图像的一部分。Transformer每一层看图像都可以看到整个图像信息。2为了达到CNN可以有多个输出通道的优点,Transformer设计了Multi-Head attention,模拟卷积神经网络多输出通道的效果。3编码器-解码器的过程中,编码阶段可以把句子的所有向量输入进去,在解码的时候只能一个词一个词的生成。自回归指的是在解码的这个过程中过去时刻的输出又是当前时刻的输入。Model Architecture理解1.
原创
2022-04-15 11:42:10 ·
1403 阅读 ·
0 评论