《Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA》读后感想

最新推荐文章于 2022-10-01 16:08:44 发布

hema12138

最新推荐文章于 2022-10-01 16:08:44 发布

阅读量516

点赞数

本文链接：https://blog.csdn.net/hema12138/article/details/89153958

版权

跟随attetion工作阅读该文

摘要

该文给我带来的思考首先于注意力的使用，它采用的co-attention结构，注意力函数类似于attention is all you need 类似采用多层尺度乘法注意，第二它对齐图像和问句特征采用多层的co-attention网络，通过拉伸的特征矩阵表示句子或图像。

模型结构

如图所示，Q 和V分别是图像和问句的特征表示，大小为d×T， d×N，T 为特征图展平后长度，N为句子长度。该模型共有L个堆叠的Dense Co-attention层，模型采用最后一层的图像和问句的注意力特征，最后采用不同参数的自注意层（文章上这样说。实际采用的两层MLP和一层softmax计算出一组权重，然后再通过权重对得到特征进行加权和作为图像或问句的语义表示。个人见解：这里的query和key不能算同一种东西，不能算自注意）分别得到图像和问句的聚合表示，最后计算图像和问句表示的得分，来预测答案。
在这里插入图片描述
Dense Co-Attention如下图示，首先根据两个输入计算出各自的注意力状态，再每个元素的状态表示拼接上原始的特征表示向量，再采用全连接层得到新的状态表示，最后与原始特征表示逐点求和得到新的特征表示。

Dense co-attention
注意力计算如下：通过降维计算多个带尺度的乘法注意力计算出N*K 的矩阵（计算方式和Attention is all you need类似，不同在于这里用的时），列对应每个图像区域在词上的注意力概率，行对应每个词在图像区域的注意力概率，按列取softmax计算每个图像区域在词上的注意力权重，再右点乘图像的特征表示，得到图像针对各个词的注意力状态；按行取softmax再转置右点乘各个词组成的特征表示矩阵，得到整个问句对每个图像区域的注意力状态。

在这里插入图片描述

hema12138

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
《Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA》读后感想

该文采用co-attention,且和attention is all you need 类似采用多层尺度点乘注意函数。该文给我带来的思考主要于注意力的使用，首先它采用的co-attention,第二它采用拉伸的特征向量表示句子或图像
复制链接

扫一扫