©PaperWeekly 原创 · 作者 | 金金
单位 | 阿里巴巴研究实习生
研究方向 | 推荐系统
简介
图文检索是信息检索的一个基础和关键分支。尽管在连接视觉和语言方面取得了很大进展,但由于模内推理和跨模态对齐困难,它仍然具有挑战性。现有的模态交互方法在公共数据集上取得了令人瞩目的成果。然而,他们在交互模式的设计上严重依赖专家经验和经验反馈,因此缺乏灵活性。
为了解决这些问题,本文提出了一种基于路由机制的新型模态交互建模网络,这是第一个面向图像-文本检索的统一动态多模态交互框架。具体来说,坐着首先设计了四种类型的单元格作为基本单元来探索不同层次的模态交互,然后以密集的策略将它们连接起来以构建路由空间。
论文标题:
Dynamic Modality Interaction Modeling for Image-Text Retrieval
论文来源:
SIGIR 2021
为了赋予模型路径决策能力,坐着在每个单元中集成了一个动态路由器以进行模式探索。由于路由器以输入为条件&#x