自注意力嵌入（一）：Learning Fragment Self-Attention Embeddings for Image-Text Matching

最新推荐文章于 2021-10-11 20:10:30 发布

qq2285580599

最新推荐文章于 2021-10-11 20:10:30 发布

阅读量699

点赞数

分类专栏：深度学习_监督_跨模态检索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq2285580599/article/details/112467354

版权

深度学习_监督_跨模态检索专栏收录该内容

10 篇文章 1 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

该博客探讨了一种新的自注意力嵌入方法，用于学习图像和文本的联合表示。通过BertAttention和BERTEncoder等操作，将图像和caption embedding映射到同一空间。实验使用了Flickr30K和MS-COCO数据集，评估指标为Recall@K。

摘要由CSDN通过智能技术生成

Motivation

1，现有的策略在测试阶段需要对所有图像-文本对进行两两相似度的计算，且计算方法复杂，在实际应用场景中缺乏效率。(Stacked Cross Attention).

2，我们考虑学习嵌入图像和文本，这两种异构数据模式独立投影到联合空间。

Framework

1，对于Image Embedding的操作:

64 * 36 * 2048 -> 64 * 36 * 256

BertAttention:

BertSelfAttention:

1,做一个自注意力转换，16个head，构造一个64 * 16 * 36 * 36的权重矩阵。

2,除以根号下head_size，然后加上attention_mask(图像全为0，文本不占位的为-10000，占位的为0).

3,最后一维做一个softmax，做一个dropout(0.1).

4,权重矩阵乘以value矩阵，最后得到64 * 36 * 256的结果。

BertSelfOutput:

了解本专栏

超级会员免费看

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
自注意力嵌入（一）：Learning Fragment Self-Attention Embeddings for Image-Text Matching

Motivation1，现有的策略在测试阶段需要对所有图像-文本对进行两两相似度的计算，且计算方法复杂，在实际应用场景中缺乏效率。(Stacked Cross Attention).2，我们考虑学习嵌入图像和文本，这两种异构数据模式独立投影到联合空间。Framework对于Image Embedding的操作:64 * 36 * 2048 -> 64 * 36 * 256BertAttention: BertSelfAttention: 1,做一个自注意...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。