零样本目标检测:鲁棒的区域特征合成器用于目标检测(附论文下载)

关注并星标

从此不迷路

计算机视觉研究院

e959d389390cca2e37ae2685df9ae146.gif

52c3ac9ead116227b9553be89cdb753e.gif

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

论文地址:https://arxiv.org/pdf/2201.00103.pdf

计算机视觉研究院专栏

作者:Edison_G

零样本目标检测(Zero-shot object detection)旨在结合类语义向量来实现在给定无约束测试图像的情况下检测(可见和)未见过的类。

一、前言

在这项研究中,研究者揭示了该研究领域的核心挑战:如何合成与真实样本一样具有类内多样性和类间可分性的鲁棒区域特征(对于未见对象),从而可以实现强大的未见目标检测器。

为了应对这些挑战,研究者构建了一个新颖的零样本目标检测框架其中包含一个类内语义发散组件和一个类间结构保留组件。前者用于实现一对多映射,从每个类语义向量中获取不同的视觉特征,防止将真实的看不见的物体误分类为图像背景。而后者用于避免合成特征过于分散而混淆类间和前景-背景关系。

b3ed668f90d22dd857b9ac4994c203a5.png

为了证明所提出方法的有效性,对PASCAL VOC、COCO和DIOR数据集进行了综合实验。值得注意的是,新提出的方法在PASCAL VOC和COCO上实现了最先进的性能,并且是第一个在遥感图像中进行零样本目标检测的研究。

二、背景

随着CNNTransformer等深度学习技术的快速发展,目标检测研究领域取得了讯飞的进步。尽管现有方法实现的检测性能看起来很有希望和令人鼓舞,但在实际场景中应用它们存在一个隐藏的缺点——主流检测方法对要检测的类别有严格的限制。

一旦模型被训练,它只能识别出现在训练数据中的物体,而其他出现在测试图像中但在训练过程中看不到的物体会极大地混淆模型,导致无法避免的检测结果错误。为了解决这个问题,近年来提出了零样本目标检测(ZSD)的任务。目标是使检测模型能够预测在训练期间没有任何可用样本的看不见的对象。

三、新框架分析

a267231d404a863cacffa38ba0c67a36.png

在这项工作中研究问题的插图。在实际情况下,样本构建的特征空间显示出较高的类内多样性,但仍具有类间可分离性,如a所示,而现有方法学习的合成视觉特征空间要么类内多样性不足(如b所示),或具有过多的类内多样性,使类间不可分割(如c所示)。

7da7d76eff5ded86c339d0d29940fbaf.png

上图显示了提出的ZSD总体框架。可以看出,它包含一个目标检测模块和一个域变换模块。目标检测模块是一个Faster-RCNN模型,以ResNet-101作为主干。

首先,我们用看到的图像及其相应的groundtruth注释来训练Faster-RCNN模型。获得模型后,可以用它来使用RPN为所见类提取区域特征。其次,我们训练区域特征合成器来学习语义词向量和视觉特征之间的映射。然后,使用学习到的特征合成器为看不见的类生成区域特征。通过这些合成的未见区域特征及其相应的类别标签,我们可以为未见类别训练未见分类器。最后,我们更新Faster-RCNN模型中的分类器,以实现ZSD任务的新检测器。

整个训练过程也在Algorithm 1中进行了详细说明。请注意,新提出的方法核心是如何学习统一的生成模型来学习视觉域和语义域之间的关系。具体来说,研究者设计了一个统一的区域特征合成器,用于在现实世界检测场景中进行特征合成,其中包含一个类内语义发散组件和一个类间结构保持组件。

a7e7e5f44dc08cbbaf550714ce8e0b46.png

四、实验及可视化

Comparison of mAP at IoU=0.5, under ZSD and GZSD settings on PASCAL VOC dataset

3f7b2ddd618f1bc2315e6bab45f26e23.png

Comparison of Recall@100 and mAP at IoU=0.5 over two seen/unseen splits, under GZSD setting on MS COCO dataset

5249c68c2a8a6ce67f550695c2ef0486.png

1fb3a9b1e4171898b09f270f54664c24.png

854f433fae702ef3be5877e2d67b379a.png

PASCAL VOC、MS COCO(48/17和65/15)和DIOR数据集的定性结果。对于每个数据集,第一列和第二列分别是ZSD和GZSD的结果。看到的类用绿色表示,看不见的用红色表示。

© The Ending

转载请联系本公众号获得授权

ca0eb62bd6e047d828aff549ca28735f.gif

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

8537654008f05c25d3c3160ca4736150.png

扫码关注

计算机视觉研究院

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

 往期推荐 

🔗

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机视觉研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值