注意力机制(二):Focus Your Attention: A Bidirectional Focal Attention Network for Image-Text Matching

Motivation

1,只有一小部分与共同语义相关的区域或词,如果将它们全部整合在一起,就会干扰目标语义,从而导致语义失调。

2,并不是所有的片段都支持特定的共享语义,因为它们中的许多与之无关,如果不相关的片段被聚合,共享语义或多或少会受到干扰。

3,如果我们将焦点集中在一个方向上,就会导致对长文本或复杂图像的偏好。这是因为长文本或复杂图像包含更多的信息,从而更有可能得到较高的查询响应。所以我们采用双向度量,

     即算出两个方向的相似度,然后进行相加。

Framework

  • 我们首先为每个区域预先分配注意力分数,它是通过计算区域和单词之间的余弦相似度,并使用softmax激活对其进行归一化来实现的。

                                                         

  • 基于内部模式识别相关片段。

       我们以Text-to-Image Focal Attention为例,我们设每张图片有n个

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值