很久之前就看过attention的相关知识,只是没有动手实践,所以很多小细节没有考虑到.
(1)sequence-to-sequence model中,在解码的第一步S
0
_0
0是如何计算的就晕了好一阵,下面的图给出了解释

http://blog.csdn.net/xbinworld/article/details/54607525
(2)self-attention的两种计算方式

(3)相对attention(就是机器翻译里面用到的attention, 区别与self-attention)
Effective Approaches to Attention-based Neural Machine Translation
关于计算的方式有多种:

1万+

被折叠的 条评论
为什么被折叠?



