image-text matching(二)Expressing Objects just like words: Recurrent Visual Embedding for ITM

最新推荐文章于 2023-04-17 14:37:00 发布

薛定猫的谔w

最新推荐文章于 2023-04-17 14:37:00 发布

阅读量506

点赞数

文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/csdn_tclz/article/details/109903985

版权

本文提出了Dual Path Recurrent Neural Network (DP-RNN)用于图像文本匹配，解决仅关注单一对象可能导致的误匹配问题。通过RNN处理图像和文本特征，考虑对象间的语义关系，提高匹配准确性。实验表明，DP-RNN能有效利用语义相关的对象信息，提高匹配效果。

摘要由CSDN通过智能技术生成

背景

本篇论文的工作来自罗彻斯特大学。已被AAAI2020接收

动机

作者指出之前的工作仅考虑图像中单个的object与caption的关系可能导致误匹配。某些时候，这些objects可以联立起来共同确定图像是否与文本相对应。一个误匹配的例子，仅考虑单个region与各个词的联系忽略了regions之间的语义关系。如该mismatch的例子，Two people riding skis…，每个people区域都与句子高度关联，但却要联合建模regions的语义，才能确定是图上是"Two people"
在这里插入图片描述

方法

作者提出Dual Path Recurrent Neural Network (DP-RNN)，以RNN处理图像和文本特征，故构成双路RNN。个人理解，本文的创新点在于把RNN用来处理图像特征，使得图像region似乎也具有上下文一般。
利用RNN联合多个regions的语义，彷佛regions也有上下文一般。这样的话，对于不同的captions，也有相应多样的图像特征。
在这里插入图片描述

DP-RNN具体执行步骤如下：
第一步，当image-text pair送入网络时，不论当前image-text是否

最低0.47元/天解锁文章

薛定猫的谔w

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。