干货 | ICLR 2024 基于多粒度的不确定性建模的图文检索

研究者提出了一种通过考虑多粒度不确定性进行的图像检索方法,结合不确定性建模和正则化,有效提高了FashionIQ、Fashion200k和Shoes数据集的召回率。这种方法通过文本反馈处理粗细粒度检索,解决了一致性问题,为图像检索提供了新的解决方案。
摘要由CSDN通过智能技术生成

点击蓝字

e7a80f16686bc5869fb1c312cdc31818.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

在本篇工作中,研究者探索了一种统一的学习方法,通过考虑多粒度的不确定性来同时对粗粒度和细粒度的图像检索进行建模。论文的方法集成了不确定性建模和不确定性正则化来提高召回率并增强检索过程,在三个公共数据集FashionIQ Fashion200k 和 Shoes 上,所提出的方法在 baseline 上分别提高了 +4.03% 、+ 3.38% 和 + 2.40% Recall@50。

26e55f016cceb96f3ec682abf4892bff.png

论文题目:

Composed Image Retrieval with Text Feedback via Multi-Grained Uncertainty Regularization

论文链接:

https://arxiv.org/abs/2211.07394


论文代码:

https://github.com/Monoxide-Chen/uncertainty_retrieval

一、背景

典型的检索过程包含两个步骤,即粗粒度检索和细粒度检索。粗粒度检索利用简短或不精确的描述查询图像,而细粒度检索则需要更多细节进行一对一映射。

之前工作有什么痛点?  

1. 传统的图像检索系统要求用户提前提供准确的查询图像,通常是不好获得;而添加文本反馈,用户则可以对查询图像进行的修改,来逐渐细化他们的搜索。

2. 现有的组合搜索方法通常侧重于在训练过程中优化严格的成对距离,这与一对多粗粒度测试设置不同。过多关注一对一度量学习会削弱模型对潜在候选图片的召回能力。

二、方法

1、总览  

bd4b0c2c0e5abdb28e5353e0184ef6c3.png

在这篇论文中,研究者不追更精细的网络结构,而是采用一种新的学习策略。因此,主要遵循现有的工作CosMo[1]来构建网络以进行公平比较,更多的结构细节在论文中进行了提供。

给定源图像 92f9386fc1a0dcd3aa6f6647da2f5de5.jpeg 和用于修改的文本 42ba63c801e9e0dd9b5b6e8c3f002e0f.jpeg,我们通过Compositor组合 0556749768a862d3db7ff13b86eeb00b.jpegc788b2460eee3af65c65c9148021fe30.jpeg 得到了组合特征7271c646f2f6b9cc738b27233c20e865.png。同时,我们通过与源图像相同的Image Encoder提取了目标图像 3dcc6d87cda890d828b2e37be14a2147.jpeg 的视觉特征c4b22324edb09cd2771f982b0c3b4b9a.png。我们的主要贡献是通过Augmenter进行不确定性建模,以及对粗匹配进行的不确定性正则化。  

2、不确定性建模  

3c8f7cd6ec23719f496c2fb03963aa0b.png

如上图所示,不再采用严格的一对一匹配,而是促使模型专注于一对多匹配,即从细粒度过渡到粗粒度。因此,首先引入了一个用于噪声增强的Augmenter来生成抖动,这个模块直接作用于最终的特征空间。具体而言,Augmenter向目标特征31f780e684bb04a233cd0d0a1f96fbb7.png添加原始特征分布的高斯噪声。高斯噪声的均值 52bb34ad655061dce223895507baa4bb.jpeg 和标准差14a9bfcbce9085ef14912c1dfa28cc05.png是从原始特征5a1ba7ecea55dcf17082c9dc2a4e9862.png计算得出的。因此,最终的抖动特征 5a0684aa6d0a3b7a67c99ff9f015a098.png可以表示为:

83f4a942b66b18b1dbb899c4809ef100.png

其中,𝛼和𝛽是与输入目标特征具有相同形状的噪声向量,f72f26a4288c509f18ad7aad28b1d2ba.png,而cb64e0e279dedee0d867a14db7fd92b4.png。通过这种方式可以使特征在有限程度上波动,接近于原始分布。

3、不确定性正则化  

现有的方法通常采用InfoNCE损失函数,可以看作是一种batch分类损失函数(batch-wise classification loss)。其简单表述如下:

04c12ec980f22b816dfa3330562a7896.png

对于一个具有𝐵个样本的batch,给定图文合成特征0c0334b3b351b57c261159e8cbad4d6c.png和目标特征517141941537dedca661671e6bae02ba.png,InfoNCE损失同时最大化自相似性 05a40801cfdaba060d1d12fe995ffefd.jpeg 并最小化batch中与其他样本相似性 2f27f1178d6edc61efdf51f61c96331d.jpeg7078e5065dd52d7ab71da5c1007d4e40.jpeg 。可以看出,InfoNCE损失仅关注一对一的精细粒度匹配。在这项工作中旨在统一精细和粗粒度的匹配。由偶然不确定性(Aleatoric Uncertainty)[2]的启发,给定两种类型的特征d5366d72ef43d2fb0dfbdbc3a31a33eb.png94ce3966b6000ee64be4b86500feb0fa.png,不确定性正则化可以定义如下:  

6220b3470f89af9d2759d48cd920286e.png

为了优化多粒度检索性能,采用了细粒度损失c99c27af1395b6dd5f405f7f73c576fd.png和论文提出的不确定性正则化8702213ac501e791b273c6f9ddfa43ee.png的组合。因此,总损失如下:61ac65a63d09204ddf8c96f777f56f6d.png

三、实验  

1、实验设置  

论文在多个数据集上(FashionIQ、Fashion200k、Shoes)测试了方法的准确性,提升了召回率。代码已经公开在github上。

2、实验结果  

展示了一些论文结果,更多的实验结果和消融实验请参考论文。

8a43238b71098597f154745388077291.png

在FashionIQ上的结果

721972bc8cad3d4d94e8ee1d824abdb7.png

在Fashion200k和Shoes上的结果   

四、总结  

总的来说,该论文通过多粒度不确定性正则化的角度提出了一种新颖的通过文本反馈进行组合图像检索的方法。该方法通过不确定性建模和正则化同时对粗粒度和精细粒度的检索进行建模,从而解决了现实世界图像检索中的训练和测试不一致性问题。该方法生成抖动特征以模拟不确定范围,并根据波动范围自适应地调整权重。与现有方法相比,所提出的方法在三个公共数据集上显著提高了召回率。论文还讨论了该方法在现实场景中的潜在应用以及其对集成数据集的可扩展性。总体而言,所提出的方法为通过文本反馈进行组合图像检索面临的挑战提供了有希望的解决方案。

[1] Lee et al. "CoSMo: Content-Style Modulation for Image Retrieval with Text Feedback". CVPR, 2021

[2] Kendall et al. "What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?". NeurIPS, 2017

提醒

点击“阅读原文”跳转到01:26:47

可以查看回放哦!

往期精彩文章推荐

4f0d645fc9e0e195fd590d185d5e1c22.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1700多位海内外讲者,举办了逾600场活动,超700万人次观看。

39b2b36a3347fa08c47a43f344fe1452.png

我知道你

在看

~

83b717c338a613447ec4ed7aa078ff2c.gif

点击 阅读原文 观看更多!

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值