Transformer(self attention)超详解&示例代码
说明attention机制(注意力机制)有效解决了RNN网络对长序列编码效果差的问题。但是attention机制是对RNN网络编码后的特征序列进行打分,如果输入序列长度是30(即输入30个连续的原始特征),则RNN网络会编码出30个编码后的特征。在解码时,每解码一次,都会对这30个编码后的特征进行打分求和,结果作为输入传给解码器。既然每次都是对全部编码后的特征进行打分,即每次解码都使用了全部信息,那么可不可以不使用编码后的特征,直接对原始特征进行打分呢,答案是可以的,即self attention。
原创
2020-09-28 13:40:33 ·
11397 阅读 ·
2 评论