A New Benchmark and Approach for Fine-grained Cross-media Retrieval 论文解读

我是喵喵酱

已于 2022-02-17 14:32:17 修改

阅读量560

点赞数 3

文章标签：计算机视觉

于 2022-02-16 03:27:34 首次发布

本文链接：https://blog.csdn.net/qq_43351790/article/details/122925680

版权

本文构建了一个新的细粒度跨媒体检索基准，包含图像、文本、视频、音频4种媒体类型，针对200个鸟类子类别，解决了现有数据集的不足。同时，提出了统一深度模型FGCrossNet，通过分类、中心和排序约束学习四种媒体的通用表示。实验验证了新基准的有效性和FGCrossNet在细粒度跨媒体检索任务上的优越性能。

摘要由CSDN通过智能技术生成

题目：一种新的细粒度跨媒体检索基准和方法

时间：2019.10
作者：贺祥腾，彭宇鑫，谢刘
第27届ACM多媒体国际会议论文集

ABSTRACT

跨媒体检索：返回与任意媒体类型查询相对应的各种媒体类型的结果。
跨媒体检索的研究现状及问题：
现有的研究主要集中在粗粒度跨媒体检索上。当用户提交一张“灰背鸥”的图片作为查询时，粗粒度的跨媒体检索将其视为“鸟”，这样，用户只能得到“鸟”的结果，其中可能包括其他具有相似外观(图像和视频)、描述(文本)或声音(音频)的鸟类，如“鲱鱼鸥”。
这种粗粒度的跨媒体检索与人类的生活方式不一致，在人类的生活方式中，我们通常有细粒度的需求，即返回“灰背鸥”而不是“鲱鱼鸥”的精确相关结果。
本文的工作：本文首先构建了一种新的细粒度跨媒体检索基准，该基准由“鸟”的200个细粒度子类别组成，包含图像、文本、视频、音频4种媒体类型。据我们所知，这是第一个使用4种媒体类型进行细粒度跨媒体检索的基准测试。然后，我们提出了一个统一的深度模型FGCrossNet，该模型可以同时学习4种类型的介质，不需要区别对待。为了更好地进行公共表示学习，我们共同考虑了三个约束条件:分类约束保证了细粒度子类别判别特征的学习，中心约束保证了同一子类别特征的紧凑性，等级约束保证了不同子类别特征的稀疏性。大量的实验验证了新基准的有效性和我们的FGCrossNet的有效性。
FGCrossNet的新基准和源代码链接

1.INTRODUCTION

跨媒体检索的意义：在大数据时代，图像、文本、视频、音频等多媒体数据已成为人类认识世界的主要形式。因此，提供一种有效的多媒体检索范例以满足人的检索需求具有重要意义。跨媒体检索就是这样一种有效的检索范式，用户可以通过提交任意媒体类型的查询来获得各种媒体类型的结果。 图1显示了一些跨媒体检索的例子，其中音频数据是通过声谱图可视化的。
粗粒度跨媒体检索和细粒度跨媒体检索的区别：当用户提交一个“灰背鸥l”的图像作为查询时，将返回各种媒体类型的结果包括图像、文字、视频和音频。在粗粒度跨媒体检索中，它只将图像视为“鸟”，因此返回与“鸟”相关的结果，而无需进一步细粒度考虑。因此，检索结果可能是“鲱鱼鸥”的图像，其整体外观与“灰背鸥”相似，如图2 (a)所示。它不能满足细粒度的需求，即我们希望得到与“灰背鸥”而不是“鲱鱼鸥”精确相关的结果。细粒度跨媒体检索就是这样一种范式，它满足细粒度检索需求，返回与提交查询的细粒度子类别对应的结果，如图2 (b)所示。粗粒度跨媒体检索和细粒度跨媒体检索的区别如下：
细粒度跨媒体检索面临的三个挑战:
(1)数据集较少——现有的跨媒体数据集主要是基于粗粒度类别或语义构建的粗粒度跨媒体检索，但很少有数据集可以用于细粒度跨媒体检索。
(2)异质性差距——不同类型的媒体具有不一致的分布和特征表征，这使得跨媒体检索颇具挑战性。
(3)类间差异小——属于同一基本类的相似子类别可能具有相似的全局外观(图像或视频)、相似的文本描述(文本)和相似的声音(音频)，这导致难以区分相似的细粒度子类别。
为了解决细粒度跨媒体检索的挑战，我们首先构建了一个新的细粒度跨媒体检索基准，然后提出了一个统一深度模型(FGCrossNet)，以同时学习4种类型媒体的通用表示。综合实验结果和对新基准的分析，验证了其实用性和我们的FGCrossNet的有效性。
本文的贡献:
构造了一种新的细粒度跨媒体检索基准。它有3个优点:(1)物种多样性它由200个细粒度的“鸟”子类组成，包含图像、文本、视频和音频4种媒体类型。据我们所知，它是用于细粒度跨媒体检索的具有最多媒体类型的最大基准测试。(2)领域多样性其数据来自不同的来源(领域)，这导致即使是相同媒体类型的数据也具有不同的属性和分布，增加了细粒度跨媒体检索的挑战。(3)可用性它将公开发布，供研究人员在新的基准上迅速评估他们的方法，这鼓励进一步研究细粒度跨媒体检索
提出了一种统一的细粒度跨介质检索深度模型， 即FGCrossNet，该模型可以在不区分处理的情况下同时学习4种介质。为了更好地进行公共表示学习，我们共同考虑了三个约束条件:分类约束保证了细粒度子类别判别特征的学习，中心约束保证了同一子类别特征的紧凑性，等级约束保证了不同子类别特征的稀疏性。

2.A NEW BENCHMARK

目前已经有几个用于粗粒度跨媒体检索的数据集/基准，它们的统计信息如表1所示。

（1）Wikipedia，其中包含了来自10个粗粒度类别(如“History”和“Warfare”)的2866个图像/文本对。
（2）Rashtchian等人从Pascal VOC 2008数据集中选取1000张图像，用5个句子对其进行标注，构建出Pascal sentences数据集。
（3）随后，我们构建了一些大规模的跨媒体数据集来促进粗粒度跨媒体检索的发展，如Flickr-30K和MS-COCO。这些数据集中的文本信息由句子或文章表示。
（4）Chua等构建了NUS-WIDE数据集，该数据