注意力值的计算可以分为两步:(1)在所有输入信息上计算注意力分布(2)根据注意力分布来计算输入信息的加权平均。 注意力机制是一种思想,其实并不是固定的框架,它的主要目的就是从巨大的输入中,得到最重要的元素