《Step-Wise Hierarchical Alignment Network for Image-Text Matching》论文详细梳理

最新推荐文章于 2024-08-30 07:44:38 发布

梦想天空分外蓝-

最新推荐文章于 2024-08-30 07:44:38 发布

阅读量500

点赞数

分类专栏：图文匹配文章标签：图像处理自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_47984164/article/details/127961377

版权

图文匹配专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章信息：该论文是2021年发表在IJCAI上的关于图文匹配的文章

论文详细内容如下表所示：

论文题目		Step-Wise Hierarchical Alignment Network for Image-Text Matching
创新点	内容	提出了一种分步分层对齐网络（SHAN），该网络通过逐步执行三个对齐步骤来推理图像文本对的相关性。
创新点	动机	以前大多数的图文匹配方法很少关注图像和文本中的上下文信息，缺乏了多层次信息，导致匹配错误。而作者提出的方法可以很好的利用上下文信息解决语义内容相似但上下文信息略有不同的错误匹配。
所用方法	网络结构
所用方法	简要介绍	SHAN网络在fragment-level alignment和context-level alignment 执行分层跨模态对齐 Step1:使用交叉注意力实现图像区域和文本单词的对齐（L2L） Step2:基于生成的上下文表示，执行全局到局部的对齐（G2L） Step3:执行全局到全局跨模态对齐（G2G）
方法详细过程	图像特征提取：用Faster R-CNN 提取图像显著区域，数量设为36 提取单词特征：双向GRU 1、Fragment-level L2L Alignment：双向交叉注意力 2、Context-level G2L Alignment：实现了上下文级的全局到局部的对齐。利用上下文信息作为补充线索来理解图文之间的语义关联。通过对原始区域/词特征进行fusion和pooling操作，得到图像和文本的全局表示，并且通过跨模态注意力增强图像和文本的全局表示。基于生成的视觉和文本的全局上下文表示，我们通过双向交叉注意力机制实现全局-局部对齐。 3、Context-level G2G Alignment：在SHAN模型顶层，从全局的角度进一步对齐图像和文本。

梦想天空分外蓝-

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。