准确率接近百分百的组合:交叉注意力+特征融合

论文1

Multi-Modality Cross Attention Network for Image and Sentence Matching

用于图像和句子匹配的多模态交叉注意力网络

方法:

  1. 自注意力模块:利用Transformer单元对图像区域和句子词进行建模,以捕捉模态内部的关系。图像区域通过预训练的bottom-up注意力模型提取特征,句子词则使用BERT模型进行编码。

  2. 交叉注意力模块:将图像区域和句子词的特征堆叠后输入Transformer单元,通过交叉注意力机制同时考虑模态间和模态内的关系,以增强图像和句子的匹配能力。

  3. 特征聚合:采用1D-CNN和池化操作对特征进行聚合,得到图像和句子的全局表示。

  4. 双向三元组损失:通过硬负样本挖掘优化模型参数,使匹配的图像和句子对的相似度高于不匹配的对。

创新点:

  1. 联合建模模态内外关系:首次在统一的深度模型中同时建模图像区域和句子词的模态内和模态间关系,提升了特征的判别能力。

  2. 性能提升:在Flickr30K数据集上,图像到句子检索的R@1、R@5、R@10指标分别达到74.2%、92.8%、96.4%,句子到图像检索的R@1、R@5、R@10指标分别达到54.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值