attention的目的是找出那些词(字)比较重要,很多人说是找其他词(上下文)与目标词的相似度,越相似的越重要。怎么说无所谓,目标就是给部分词赋予更多的权重,给部分词赋予少一些的权重。所以,这里我把attention的过程分为两步:
- 求权重。赋予权重的方式有很多,图中列举了几个。除了图中的几个,还用到一个拼接的Similarity(q,k) = a*[Wq|Wk]
- 对value进行加权求和,然后输出。
attention的目的是找出那些词(字)比较重要,很多人说是找其他词(上下文)与目标词的相似度,越相似的越重要。怎么说无所谓,目标就是给部分词赋予更多的权重,给部分词赋予少一些的权重。所以,这里我把attention的过程分为两步: