注意力机制
注意力机制 与 全连接层或汇聚层 的 区别
“是否包含自主性提示”将注意力机制与全连接层或汇聚层区别开来。
key value query
在注意力机制的背景下,自主性提示被称为查询(query)。
给定任何查询,注意力机制通过注意力汇聚(attention pooling) 将选择引导至感官输入(sensory inputs,例如中间特征表示)。
在注意力机制中,这些感官输入被称为值(value)。 更通俗的解释,每个值都与一个键(key)配对, 这可以想象为感官输入的非自主提示
可以通过设计注意力汇聚的方式, 便于给定的查询(自主性提示)与键(非自主性提示)进行匹配, 这将引导得出最匹配的值(感官输入)。
key与value一一对应,
V相当于就是卷积之后的值,是一种feature,用attention可以知道哪个feature更重要
出处忘了:
“Query,Key,Value的概念取自于信息检索系统,举个简单的搜索的例子来说。当你在某电商平台搜索某件商品(年轻女士冬季穿的红色薄款羽绒服)时,你在搜索引擎上输入的内容便是Query。
然后搜索引擎根据Query为你匹配Key(例如商品的种类,颜色,描述等)。
然后根据Query和Key的相似度得到匹配的内容(Value)。”
汇聚
平均汇聚
鸡肋,不管输入啥,都输出同样的数,(训练集的平均数)
注意力汇聚
住意力汇聚(attention pooling)公式:
如果一个键x_i越是接近给定的查询x, 那么分配给这个键对应值y_i的注意力权重就会越大, 也就“获得了更多的注意力”。
以高斯核为例:
直观感觉就是,你x和xi离得越近,算出来α(xi)越大,给他的权重也越大,最后输出时给yi的权重越大,越接近预测值。
带参数的注意力汇聚
下次