ICLR 2024 清华/新国大/澳门大学提出一模通吃的多粒度图文组合检索MUG:通过不确定性建模,两行代码完成部署...

研究人员提出了一种新的学习方法,通过结合不确定性建模和正则化,改进粗粒度和细粒度图像检索。论文在FashionIQ、Fashion200k和Shoes数据集上展示了显著的召回率提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【CV技术和求职】交流群

扫码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,以及最前沿项目和应用!发论文搞科研,强烈推荐!

10f89d769902a35efd8e6a581c834a1e.jpeg

在本篇工作中,研究者探索了一种统一的学习方法,通过考虑多粒度的不确定性来同时对粗粒度和细粒度的图像检索进行建模。论文的方法集成了不确定性建模和不确定性正则化来提高召回率并增强检索过程,在三个公共数据集FashionIQ、Fashion200k 和 Shoes上,所提出的方法在baseline上分别提高了 +4.03%、+ 3.38% 和 + 2.40% Recall@50。

4b8901fb6c6fdce28b6ad5cff68201d4.png

论文题目:

Composed Image Retrieval with Text Feedback via Multi-Grained Uncertainty Regularization

论文链接:

https://arxiv.org/abs/2211.07394

论文代码:

https://github.com/Monoxide-Chen/uncertainty_retrieval

一、背景

典型的检索过程包含两个步骤,即粗粒度检索和细粒度检索。粗粒度检索利用简短或不精确的描述查询图像,而细粒度检索则需要更多细节进行一对一映射。

之前工作有什么痛点?   

1. 传统的图像检索系统要求用户提前提供准确的查询图像,通常是不好获得;而添加文本反馈,用户则可以对查询图像进行的修改,来逐渐细化他们的搜索。

2. 现有的组合搜索方法通常侧重于在训练过程中优化严格的成对距离,这与一对多粗粒度测试设置不同。过多关注一对一度量学习会削弱模型对潜在候选图片的召回能力。

二、方法

1、总览  

b268ec28cf1d1e018eea2fd0a12e0b9f.png

在这篇论文中,研究者不追更精细的网络结构,而是采用一种新的学习策略。因此,主要遵循现有的工作CosMo[1]来构建网络以进行公平比较,更多的结构细节在论文中进行了提供。

给定源图像 b6ad91153f7ab16717b0deb8671c6a64.jpeg 和用于修改的文本 ba1ec04d6ffae98b9ac30365c6f66ec3.jpeg,我们通过Compositor组合 fa1ac8b6e99d6ecd6009b79679fe8e57.jpeg1a17f96baf2d260ce5ad2df2e10ed068.jpeg 得到了组合特征 b2f6d3d78a13adff25613f2c4bdfda6e.jpeg。同时,我们通过与源图像相同的Image Encoder提取了目标图像 6b498212ccc08e1d06c22987599d86a7.jpeg 的视觉特征 6a52f24fecbb16afefd5875fa053eccb.jpeg。我们的主要贡献是通过Augmenter进行不确定性建模,以及对粗匹配进行的不确定性正则化。   

2、不确定性建模  

d5787ca65bf49034789c0a41e4716cdc.png

如上图所示,不再采用严格的一对一匹配,而是促使模型专注于一对多匹配,即从细粒度过渡到粗粒度。因此,首先引入了一个用于噪声增强的Augmenter来生成抖动,这个模块直接作用于最终的特征空间。具体而言,Augmenter向目标特征 358bf6cae4db55ad1272d954dfe7cfe7.jpeg 添加原始特征分布的高斯噪声。高斯噪声的均值 e7fbf42f16d7ea311aeae6e2ea3c0b38.jpeg 和标准差 9c09b9ce340fc9f3f0b8ee24056355c0.jpeg 是从原始特征 aa6696c2f84c33d66006f30cf450a78d.jpeg 计算得出的。因此,最终的抖动特征 cc81b8469c9216d1d91641a6d77fa455.jpeg 可以表示为:

6e1ec1eab2daed0bd893ec8760de8e01.jpeg

其中,a42ffa2dbdc0bd02f6a8b2edde0cf76e.jpegbd3452b1f27502786d456622120969bc.jpeg 是与输入目标特征具有相同形状的噪声向量,53e02a874c7a8ca764cac8a072076342.jpeg,而 00022ab51cddb0920e5681b2e316b822.jpeg。通过这种方式可以使特征在有限程度上波动,接近于原始分布。

3、不确定性正则化  

现有的方法通常采用InfoNCE损失函数,可以看作是一种batch分类损失函数(batch-wise classification loss)。其简单表述如下:

4bf5227c119a1b9b232ef2532627fed7.jpeg

对于一个具有 0674aa5a00019c73d6e0ea618c4decf0.jpeg 个样本的batch,给定图文合成特征 c9280b5a2af5a4113406befadd6bc247.jpeg 和目标特征 42e94ca8565ac9c3fdd3cd6cfd8322fa.jpeg,InfoNCE损失同时最大化自相似性 1bcf83ea476f75f3cc9634ad49889d4e.jpeg 并最小化batch中与其他样本相似性 e179254ac081847e3aeb219d8cb85bda.jpegc835ce06e6719ab83929cbc5cce43a8c.jpeg 。可以看出,InfoNCE损失仅关注一对一的精细粒度匹配。在这项工作中旨在统一精细和粗粒度的匹配。由偶然不确定性(Aleatoric Uncertainty)[2]的启发,给定两种类型的特征 b9eca974f7cb3620c51904545c4c8672.jpeg595558965f97795ac995f7ee8645e968.jpeg,不确定性正则化可以定义如下:   

dc90ec78a230c34ddd986011a93ae8b4.jpeg

为了优化多粒度检索性能,采用了细粒度损失 6b1bb16b6cb7fc6110c8e1cd57a9a974.jpeg 和论文提出的不确定性正则化 5a8a326ad23ff512aa3a746ea6abe061.jpeg 的组合。因此,总损失如下:

fbc492651025e05cb71f1f28c4596e51.jpeg

三、实验  

1、实验设置  

论文在多个数据集上(FashionIQ、Fashion200k、Shoes)测试了方法的准确性,提升了召回率。代码已经公开在github上。

2、实验结果  

展示了一些论文结果,更多的实验结果和消融实验请参考论文。

e8a77cb6cad935974b3693f846e8184f.png

在FashionIQ上的结果

580268625743926e24de8d60510d88c9.png

在Fashion200k和Shoes上的结果    

四、总结  

总的来说,该论文通过多粒度不确定性正则化的角度提出了一种新颖的通过文本反馈进行组合图像检索的方法。该方法通过不确定性建模和正则化同时对粗粒度和精细粒度的检索进行建模,从而解决了现实世界图像检索中的训练和测试不一致性问题。该方法生成抖动特征以模拟不确定范围,并根据波动范围自适应地调整权重。与现有方法相比,所提出的方法在三个公共数据集上显著提高了召回率。论文还讨论了该方法在现实场景中的潜在应用以及其对集成数据集的可扩展性。总体而言,所提出的方法为通过文本反馈进行组合图像检索面临的挑战提供了有希望的解决方案。

[1] Lee et al. "CoSMo: Content-Style Modulation for Image Retrieval with Text Feedback". CVPR, 2021

[2] Kendall et al. "What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?". NeurIPS, 2017

在CVer微信公众号后台回复:论文,即可下载论文pdf和代码链接!快学起来!

点击进入—>【CV技术和求职】交流群

计算机视觉技术交流群成立

 
 
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值