文章目录 前言 前言 在seq2seq中, encoder隐层的输出可以当作K, decoder隐层的输出作为Q, 这里不能反过来, 因为我们是根据注意力过滤掉K的内容, 所以K对应encoder 比如下面这张图, Q是running, 就是问谁在跑, K 注意到女孩, decoder发出Q, 对应询问什么样的信息最重要, encoder则给出相应的K