Focus Your Atention: A Bidirectional Focal Atention Network for Image-Text Matching(图文匹配)

Focus Your Atention: A Bidirectional Focal Atention Network for Image-Text Matching(一个双向聚焦注意力网络)
在这里插入图片描述

  • 作者单位:iie、ustc等
  • 论文:https://arxiv.org/pdf/1909.11416.pdf

ABSTRACT

  1. 学习图像和文本语义对应的关键挑战:准确地发现和关联图像和文本的共享语义
  2. 现存方法:将共享语义表示为所有片段(图像区域或文本单词)的加权组合来实现这一目标,与共享语义相关的片段获得更多关注,反之则较少
  3. 存在的问题:尽管相关语义对共享语义的贡献更大,但不相关语义或多或少会干扰共享语义,从而导致关联阶段的语义失调
  4. 本文提出了一种新的双向聚焦注意力网络(BFAN),该网络不仅允许关注相关片段,而且还将所有注意力转移到这些相关片段上(与以前方法不同:它们大多侧重于学习注意力权重,而我们的BFAN侧重于从共享语义中消除不相关的片段)
  5. 通过基于模态间关系预分配注意,基于模态内关系识别相关片段,再分配注意来实现焦点注意
  6. 聚焦注意力从图像—文本 / 文本—图像

INTRODUCTION

  1. 现存问题:这是因为许多片段与共享语义无关,这些片段也被关注,因此共享语义或多或少会受到干扰
  2. 我们提出了一种新的双向聚焦注意力网络(BFAN)通过只关注相关的片段而不是所有的片段来解决语义不一致问题(聚焦注意力聚焦于不相关片段去除上)
  3. 聚焦注意力:聚焦注意力是通过预先分配注意力、识别相关片段和重新分配注意力来实现的
  4. 此外,我们最大限度地将焦点注意力应用于图像-文本和文本-图像方向,以避免对长文本或复杂图像的偏好
  5. 贡献:
    (1)提出了一种新的双向焦点注意网络,该网络仅通过关注相关片段就能准确学习语义对齐。这是第一个在图文匹配中只关注相关片段而忽略不相关片段的工作
    (2)我们将图像-文本和文本-图像匹配整合到一个统一的框架中,避免了对长文本或复杂图像的偏好,最大限度地关联相关的图像-文本对
    (3)实验

RELATED WORK

  1. one-to-one方法(全图—文本):映射到一个潜在空间

  2. many-to-many方法(图像区域—文本单词):关联由区域和单词组成的共享语义来学习潜在的区域-单词对应(本文提出一种新的焦点注意力,该焦点注意力可以从共享语义中消除不相关的区域/词)

METHOD
在这里插入图片描述

  1. 通用注意力框架:
    (1)总体目标:最大限度地提高每个局部共享语义的相关性
    (2)现存注意力方法寻找共享语义:学习所有片段的注意力分布来寻找共享语义(缺点:并不是所有的片段都支持特定的共享语义,因为它们中的许多与之无关,如果不相关的片段被聚合,共享语义或多或少会受到干扰。更严重的是,它会导致语义不一致,因为不同的语义不能适当地解耦。 因此,有必要通过集成与目标语义相关的片段子集来表示共享语义)
  2. 我们的聚焦注意力:
    (1)不相关片段从共享语义被移除(计算相似性)
    (2)Text-to-Image焦点注意力:预先分配注意力(cos余弦) / 识别相关区域 / 重新分配注意力
    (3)Image-to-Text焦点注意力:
    (4)双向焦点注意力:文本-图像聚焦注意力学会挑选出语义上与每个单词相似的图像区域子集,而图像-文本聚焦注意力学会挑选出语义上与每个图像区域相似的文本单词子集
  3. 目标函数:Rank loss(采用一种结构化的排序损失作为目标函数,该函数已被证明能够使相关的图像-文本对的相关性得分最大化,使不相关的文本-图像对的相关性得分最小化)
    在这里插入图片描述
  4. 特征提取:
    (1)图像特征: Faster R-CNN + ResNet-101
    (2)文本特征: bidirectional GRU

EXPERIMENTS

  1. 实验设置:
    (1)数据集:Flickr30K / MSCOCO
    (2)评估指标:Recall@K (K = 1,5)
  2. 比较结果:在这里插入图片描述
  3. 消融实验:
    在这里插入图片描述
  4. 注意力可视化:
    在这里插入图片描述
  5. 量化结果(一些可视化结果展示)

CONCLUSION
本文提出了一种新的用于图像-文本匹配的双向焦点注意力模型。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在Swin Transformer中添加注意力机制需要进行以下步骤: 1. 导入需要的模块 在Swin Transformer的代码中,需要导入以下模块: ``` python import torch from torch import nn from torch.nn import functional as F ``` 2. 实现注意力机制 在Swin Transformer中,可以通过实现自定义的注意力机制来添加注意力机制。 ``` python class Attention(nn.Module): def __init__(self, in_channels, out_channels, kernel_size=1, stride=1): super(Attention, self).__init__() self.conv = nn.Conv2d(in_channels, out_channels, kernel_size, stride, padding=kernel_size // 2, groups=out_channels) self.norm = nn.BatchNorm2d(out_channels) self.act = nn.ReLU(inplace=True) self.pool = nn.AdaptiveAvgPool2d(1) self.conv_atten = nn.Conv2d(out_channels, out_channels, kernel_size=1, stride=1) self.sigmoid = nn.Sigmoid() def forward(self, x): x = self.conv(x) x = self.norm(x) x = self.act(x) x = self.pool(x) x = self.conv_atten(x) x = self.sigmoid(x) return x ``` 在这个自定义的注意力模块中,使用了卷积、BN、ReLU、全局平均池化、卷积、Sigmoid等操作,来实现对输入特征图的注意力加权。 3. 在Swin Transformer中使用注意力机制 在Swin Transformer中,可以在需要添加注意力机制的地方,将Attention模块加入到网络中。 例如,在Swin Transformer的基础块中,可以在第二个分支的卷积之前添加注意力模块: ``` python class SwinTransformerBlock(nn.Module): def __init__(self, dim, input_resolution, num_heads, window_size=7, shift_size=0, mlp_ratio=4., qkv_bias=False, qk_scale=None, drop=0., attn_drop=0., drop_path=0., act_layer=nn.ReLU, norm_layer=nn.LayerNorm): super().__init__() self.dim = dim self.input_resolution = input_resolution self.num_heads = num_heads self.window_size = window_size self.shift_size = shift_size self.mlp_ratio = mlp_ratio self.qkv_bias = qkv_bias self.qk_scale = qk_scale self.drop = drop self.attn_drop = attn_drop self.drop_path = drop_path self.norm1_name, norm2_name = norm_layer.__name__.split('.')[-1], norm_layer.__name__.split('.')[-1] self.norm1 = norm_layer(dim) self.attn = WindowAttention( dim, window_size=window_size, num_heads=num_heads, qkv_bias=qkv_bias, qk_scale=qk_scale, attn_drop=attn_drop, proj_drop=drop) self.norm2 = norm_layer(dim) self.mlp = Mlp(in_features=dim, hidden_features=int(dim * mlp_ratio), act_layer=act_layer, drop=drop) self.conv_atten = Attention(dim, dim//8) # 添加注意力模块 def forward(self, x, mask_matrix=None): H, W = self.input_resolution B, L, C = x.shape assert L == H * W, "input feature has wrong size" # norm before attn x = self.norm1(x) # calculate attention mask if mask_matrix is None: mask_matrix = torch.zeros((1, H, W, H, W), dtype=x.dtype, device=x.device) # 生成全零的mask矩阵 if self.window_size == H and self.shift_size == 0: # use global attention attn_mask = mask_matrix else: # calculate attention mask for SW-MSA attn_mask = self.calculate_mask(mask_matrix) # atention x = x.reshape(B, H, W, C).permute(0, 3, 1, 2) # 添加注意力模块 x = x * self.conv_atten(x) x = x.permute(0, 2, 3, 1).reshape(B, H * W, C) x, attn = self.attn(x, attn_mask) # drop path if self.drop_path > 0.: x = drop_path(x, self.drop_path, self.training) # reesidual connection x = x + self.drop_path(self.mlp(self.norm2(x)), self.drop_path, self.training) return x, attn, mask_matrix ``` 在这个Swin Transformer基础块的第二个分支的卷积之前,加入了Attention模块,并用该模块对输入特征图进行了注意力加权。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值