Attention机制最近很火啊,万物皆可Attention,为啥呢?
首先,Attention是怎么来的?在十月一号的景点,你给你心爱的拍了一张照片,然后你看着这张照片,眼睛里满满都是你心爱的人,为什么呢,因为你给你心爱的都在图像区域分配较大权重,而给**地方分配了较小的权重,所以这张照片主要描述的内容就是你心爱的人,无论你怎么构图,把他放1/3处,左下角,右上角,这张照片的主要内容都不会改变。这个就是Attention最初思想的由来。所以Attention的本质就是一个权重分配机制。
有超级多的博客说了Attention是一种软寻址方式,其实很有道理,但是对于大部分而言就感觉听起来就很难,所以我们换个角度理解,所以呢当你做Attention的时候,你要明确两个东西,第一个就是你要给什么东西做Attention,第二个,什么东西决定你的权重。做Attention的东西比如说,每一个字有N维字向量,每一维字向量(向量级别),每一部分字向量(比如0-25维,25-50维,50-75维)Bert(Tranformer)的思路,每一个字的所有向量,每一个词。这些都可以进行Attention。上述的做Attention的部分就是Key和Value,接下来是你需要选择另外一个向量对他进行权重分配就是Query。
由于我不会上传图片。。。就口述一下,在自然语言中一般K=V(在Google的《Attention is all you need》中K=V=Q,这个叫自注意力机制,用自己给自己定权重,喜欢Attention机制的人这篇文章应该是必读的&#x
Tensorflow实现Attention层
最新推荐文章于 2024-04-27 22:01:34 发布