摘要
近些年跨模态图像-配方检索得到了广泛的关注。我们提出一种新的检索框架,T-Food(用于跨模态食物检索的多模态正则化的Transformer解码器),使用一种新的正则化方案利用模态间的交互作用,在测试时只使用单模态编码器用于高效检索。我们还利用专门的配方编码器捕获配方实体间的内部依赖,并提出一种具有动态边缘的三重损失的变体,以适应任务的难度。最后,我们利用最近的VLP模型的力量用于图像编码器,如CLIP。
一、介绍
本工作关注配方-图像检索,包括检索给定配方对应的图像,反之亦然。我们提出一种基于新的架构和学习框架的跨模态配方检索的新策略。由于配方实体是高度相关的,我们提出一种显式地利用实体内部和实体之间的依赖性的一种层次化的transformer。对于视觉编码器,我们考虑视觉transformer如ViT,也考虑了最近的模型如在大的多模态数据集上预训练好的CLIP-ViT,我们期待后者能够对在Recipe1M中的噪声更具鲁棒性。
为了实现高效的大规模检索,我们利用双编码器,但我们在训练期间考虑一个更复杂的图像-配方交互,我们通过一个新的transformer基本模块与作为一种正则化的图像-文本匹配损失来实现,以更好的对齐编码器表示。我们也提出一种新的可适应的损失,具有一个动态边缘,根据任务的难度而变化。整体结构与学习方案如图1所示。
我们的贡献如下:1)深的结构设计:(a)我们提出一种具有transformer解码器的新的配方编码器,捕获配方实体间的交互,(b)我们利用在大规模数据集上训练好的VLP模型用作图像编码器,(c)我们用由模态内连接的transformer组成的一个多模态块组成这种结构,尤其为训练设计。我们在测试时只保留单模态编码器,以用于高效的跨模态检索。2