来自Google AI：DELG，统一全局和局部特征的实例识别研究

最新推荐文章于 2024-06-04 09:43:01 发布

ronghuaiyang

最新推荐文章于 2024-06-04 09:43:01 发布

阅读量4k

点赞数 4

文章标签：大数据 python 计算机视觉机器学习人工智能

原文链接：https://ai.googleblog.com/2020/09/advancing-instance-level-recognition.html

版权

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

作者：Cam Askew and André Araujo

编译：ronghuaiyang

导读

本文介绍了Google AI在实例识别领域的最新进展DELG，将全局和局部特征的提取统一到了一个模型中。

论文：https://arxiv.org/abs/2001.05027

代码：https://github.com/tensorflow/models/tree/master/research/delf

Instance-level recognition (ILR)是识别一个的特定实例的计算机视觉任务，而不仅仅是它所属的类别。例如下图中，我们希望得到的是“梵高的星空”，“巴黎的凯旋门”而不是“后印象派绘画”以及“拱门”这样的标签。实例识别问题存在于许多领域，如地标、艺术品、产品或商标，并且在视觉搜索应用、个人照片管理、购物等领域都有应用。在过去的几年中，谷歌对于ILR的研究贡献包括：Google Landmarks Dataset ， Google Landmarks Dataset v2 (GLDv2)以及新的模型包括 DELF 和Detect-to-Retrieve。

对于自艺术品、地标和产品，有三种类型的图像识别问题，分布具有不同级别的标签(基本、细粒度、实例)。在我们的工作中，我们关注于实例识别。

在本文中，我们的重点是在ECCV ' 20上的Instance-Level Recognition研讨会上的一些结果。这个workshop的内容包括“DEep Local and Global features” (DELG)，最先进的图像特征实例识别模型，并给出了DELG以及其他一些ILR技巧的开源代码。会中同时还提出了基于GLDv2的两个新的里程碑式挑战(关于识别和检索任务)，以及扩展到其他领域的未来ILR挑战：艺术品识别和商品品检索。研讨会的长期目标和挑战是通过统一来自不同领域的研究工作流程，促进ILR领域的进步，并推动该领域的最新进展，迄今为止，这些研究工作大多是用来解决单独的问题的。

DELG：深度局部和全局特征

有效的图像表示是解决实例识别问题的关键。通常需要两种类型的表示：全局和局部图像特征。全局特征概括了图像的全部内容，导致一种紧凑的表示，但舍弃了实例中比较独特的视觉元素的空间排列信息。另一方面，局部特征包括关于特定图像区域的描述和几何信息，它们在描绘同一物体的图像匹配时特别有用。

目前，大多数依赖这两种特征的系统需要使用不同的模型分别利用它们，这会导致冗余计算，降低整体效率。为了解决这个问题，我们提出了DELG，一个用于局部和全局图像特征的统一模型。

DELG模型利用了一个全卷积神经网络，它有两个不同的头：一个用于全局特征，另一个用于局部特征。利用深度网络层的特征图进行聚合，得到全局特征，有效地总结了输入图像的显著特征，使模型对输入的细微变化具有更强的鲁棒性。局部特征分支利用中间特征图来检测重要的图像区域，在注意力模块的帮助下，产生描述符，通过让描述符具有可区分性的方式来表示相关的局部内容。

我们提出的DELG模型(左)。全局特征可用于基于检索的系统的第一阶段，有效地选择最相似的图像(下)。然后利用局部特征对top-level的结果进行重新排序(右上)，提高系统的精度。

这种新颖的设计可以进行高效的推理，因为它可以在单一模型中提取全局和局部特征。第一次，我们证明了这样一个统一的模型可以端到端训练，并为实例识别任务提供最先进的结果。与以往的全局特征相比，该方法的平均平均精度比其他方法高7.5%，在局部特征重排序阶段，基于delg的结果比之前的工作提高了7%。整体而言，DELG在GLDv2识别任务上的平均准确率达到了61.2%，除了2019 challenge中的两种方法外，超过了其他的所有方法。注意，2019 challenge中的所有方法都进行了复杂模型的集成，而我们的结果只使用一个单一的模型。

Tensorflow 2 的开源代码

为了进一步的研究和复现，我们发布了代码，包括DELG和其他实例识别相关技术，如DELF和Detect-to-Retrieve。我们的代码采用了最新的Tensorflow 2，除了图像检索和匹配功能外，还提供了模型训练和推断的参考实现。

实例识别的新挑战

在地标领域，[谷歌地标数据集v2](https://ai.googleblog.com/2019/05/announcing-google-landmarks-v2- improvement .html) (GLDv2)是用于实例识别的最大的可用数据集，拥有500万张跨越20万个类别的图像。通过在该数据集上训练里地标检索模型，我们已经证明与早期数据集上训练的模型相比，提高了高达6%的平均平均精度。

今年，我们还在地标领域发起了两个新的挑战，一个关注于识别，另一个关注于检索。这些比赛使用了新收集的测试集和新的评估方法：参赛者必须提交运行在Kaggle服务器上的模型和代码，而不是上传预先计算好的预测CSV文件，以计算预测的得分和排名。这种有限制的计算环境突出了高效和实用的解决方案。

挑战赛吸引了1200多支队伍参赛，比去年增加了3倍，参赛队伍比我们强大的DELG基线取得了显著的进步。在识别任务中，得分最高的小组提交的平均准确率相对提高43%，在检索任务中，获胜小组的平均准确率相对提高59%。后一种结果是通过更有效的神经网络、池化方法和训练协议的结合实现的(详见Kaggle竞赛网站)。

通过这项研究、开放源代码、数据和挑战，我们希望能够推动实例识别的进步，并使来自不同社区的研究人员和机器学习爱好者能够开发出跨不同领域的泛化方法。

—END—

英文原文：https://ai.googleblog.com/2020/09/advancing-instance-level-recognition.html

请长按或扫描二维码关注本公众号

喜欢的话，请给我个在看吧！

ronghuaiyang

关注

4
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
来自Google AI：DELG，统一全局和局部特征的实例识别研究

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”作者：Cam Askew and André Araujo编译：ronghuaiyang导读本文介绍了Google AI在实例识...
复制链接

扫一扫