【AAAI 2021】时序精选论文04|Informer: 更高性能的Transformer(代码解读附源码)
可以注意的是,一般性的Transformer中内嵌的注意力结构都为 FullAttention,所以将编码器、解码器里面的内嵌结构都替换为FullAttention后,则为传统Transformer结构了。通过使用 torch.arange(L_Q).unsqueeze(1) 与 index_sample 结合,你可以为每个查询选择对应的 sample_k 个键。torch.arange(L_Q) 生成一个从 0 到 L_Q-1 的整数序列,其中 L_Q 是查询的长度。AAAI 2021最佳论文。
复制链接