自注意力嵌入(一):Learning Fragment Self-Attention Embeddings for Image-Text Matching

该博客探讨了一种新的自注意力嵌入方法,用于学习图像和文本的联合表示。通过BertAttention和BERTEncoder等操作,将图像和caption embedding映射到同一空间。实验使用了Flickr30K和MS-COCO数据集,评估指标为Recall@K。
摘要由CSDN通过智能技术生成

Motivation

1,现有的策略在测试阶段需要对所有图像-文本对进行两两相似度的计算,且计算方法复杂,在实际应用场景中缺乏效率。(Stacked Cross Attention).

2,我们考虑学习嵌入图像和文本,这两种异构数据模式独立投影到联合空间。

Framework

1,对于Image Embedding的操作:

64 * 36 * 2048 -> 64 * 36 * 256

BertAttention:

    BertSelfAttention:

    1,做一个自注意力转换,16个head,构造一个64 * 16 * 36 * 36的权重矩阵。

    2,除以根号下head_size,然后加上attention_mask(图像全为0,文本不占位的为-10000,占位的为0).

    3,最后一维做一个softmax,做一个dropout(0.1).

    4,权重矩阵乘以value矩阵,最后得到64 * 36 * 256的结果。

    BertSelfOutput:

   

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值