所谓attention机制,不管是计算机视觉领域还是自然语言处理领域,其实本质上都是一样的,实际上就是在做加权,所谓加权,其意义就是更加关注某方面,忽视某方面。
举一个例子:
比如self-attention中,就是一条式子,。
其中的意思就是求权重,Q,K,V 由输入 X 经过线性变换得到, 则是K的维度开方,用于防止数值过大。
而所谓的多头注意力机制,则是多个attention组合在一起,形成一个所谓的多头注意力机制。
所谓attention机制,不管是计算机视觉领域还是自然语言处理领域,其实本质上都是一样的,实际上就是在做加权,所谓加权,其意义就是更加关注某方面,忽视某方面。
举一个例子:
比如self-attention中,就是一条式子,。
其中的意思就是求权重,Q,K,V 由输入 X 经过线性变换得到, 则是K的维度开方,用于防止数值过大。
而所谓的多头注意力机制,则是多个attention组合在一起,形成一个所谓的多头注意力机制。