《Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA》读后感想

跟随attetion工作阅读该文

摘要

该文给我带来的思考首先于注意力的使用,它采用的co-attention结构,注意力函数类似于attention is all you need 类似采用多层尺度乘法注意,第二它对齐图像和问句特征采用多层的co-attention网络,通过拉伸的特征矩阵表示句子或图像。

模型结构

如图所示,Q 和V分别是图像和问句的特征表示,大小为d×T, d×N,T 为特征图展平后长度,N为句子长度。该模型共有L个堆叠的Dense Co-attention层,模型采用最后一层的图像和问句的注意力特征,最后采用不同参数的自注意层(文章上这样说。实际采用的两层MLP和一层softmax计算出一组权重,然后再通过权重对得到特征进行加权和作为图像或问句的语义表示。个人见解:这里的query和key不能算同一种东西,不能算自注意)分别得到图像和问句的聚合表示,最后计算图像和问句表示的得分,来预测答案。
在这里插入图片描述
Dense Co-Attention如下图示,首先根据两个输入计算出各自的注意力状态,再每个元素的状态表示拼接上原始的特征表示向量,再采用全连接层得到新的状态表示,最后与原始特征表示逐点求和得到新的特征表示。

Dense co-attention
注意力计算如下:通过降维计算多个带尺度的乘法注意力计算出N*K 的矩阵(计算方式和Attention is all you need类似,不同在于这里用的时),列对应每个图像区域在词上的注意力概率,行对应每个词在图像区域的注意力概率,按列取softmax计算每个图像区域在词上的注意力权重,再右点乘图像的特征表示,得到图像针对各个词的注意力状态;按行取softmax再转置右点乘各个词组成的特征表示矩阵,得到整个问句对每个图像区域的注意力状态。

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值