概述
卷积、全连接、池化层都只考虑不随意线索
注意力机制则显示的考虑随意线索
随意:跟随意志(主观),有想法的选择
- 随意线索被称之为查询(query)
- 每个输入是一个值(value)和不随意线索(key)的对
- 通过注意力池化层来有偏向性的选择选择某些输入
会根据query寻找感兴趣的东西
非参注意力池化层
- 给定数据
- 查询x,平均池化是最简单的方案,不管具体查询直接对y平均,
更好的方案是60年代提出来的Nadaraya-Watson核回归(会跟候选相减,加权再对y求和。选择跟查询x相近的yi进行求和)
参数化的注意力机制
- 如果使用高斯核函数
- 代入,则
在之前基础上引入可以学习的w,x是查询,xi yi是数据,均不可以学习。
所以,注意力机制可以一般写作