Transformer笔记(Attention Is All You Need)
论文地址:https://arxiv.org/abs/1706.03762引言transformer抛弃了CNN和RNN,整个网络有且仅有self-attention和Feed Forward Neural Network组成。作者采用Attention机制的原因是考虑到RNN(或者LSTM,GRU等)的计算限制为是顺序的,也就是说RNN相关算法只能从左向右依次计算或者从右向左依次计算,这种机制带来了两个问题:1、时间步t的计算依赖于t-1时刻的计算结果,这样限制了模型的并行能力。2、按照时间步顺序
原创
2020-10-11 12:00:55 ·
437 阅读 ·
1 评论