【读论文】Zero-Shot Object Detection: Learning to Simultaneously Recognize and Localize Novel Concepts

读论文是一个很痛苦的过程,但是也是最干货的阅读材料,看一篇关于零样本目标分割的论文。
论文:https://arxiv.org/abs/1803.06049
代码:https://github.com/salman-h-khan/ZSD_Release

摘要

目前的零样本学习(ZSL)方法仅限于识别测试图像中的单个显性看不见的物体类别。我们假设此设置不适用于真实世界中的应用,在这些应用中看不见的对象仅作为复杂场景的一部分出现,从而保证了对看不见类别的“识别”和“定位”。为了解决这个限制,我们引入了一个新的 ‘Zero-Shot Detection’(ZSD)问题设置,该问题设置旨在同时识别和定位属于新颖类别的对象实例,而无需任何训练实例。我们还基于极具挑战性的ILSVRC数据集提出了一种针对ZSD的新实验协议,该协议遵循一些实际问题,例如看不见的物体的稀有性。据我们所知,这是ZSD的第一个端到端深度网络,可以联合建模可视域和语义域信息之间的相互作用。为了克服自动派生的语义描述中的干扰,我们利用元类的概念来设计原始的损失函数,以实现最大余量类分离与语义空间聚类之间的协同作用。此外,我们提出了从识别扩展到检测设置的基线方法。我们的大量实验表明,在必不可少的ZSD问题上,性能明显超过了基线。

简介

存在的问题

自研究ZSL以来,其一直以该对象分类问题为主导。但其局限性使其在现实生活中无法使用。
第一,它注定要在图像中仅存在一个主要对象的简单情况下工作。
第二,属性和语义描述与单个对象相关整个场景组成。
第三,零击识别提供了答案到基本任务中看不见的类别,例如分类和检索,但是无法扩展到高级任务,例如场景解释和上下文建模,这需要对场景中所有显着对象进行基本推理。
第四,全局属性更容易受到背景变化,视点,外观和比例变化以及诸如咬合和混乱。
结果,在复杂情况下,图像级ZSL失败场景,其中各种竞争属性不属于单个图像级类别将存在。

提出新方法

在这里插入图片描述

引入了一个新的问题设置,称为零散物体检测。
如图1所示,不仅仅是分类图像,我们的目标是同时检测和定位每个个体实例新对象类,即使没有这些类的任何直观示例
在训练阶段。
在这方面,我们提出了一种基于ILSVRC的新的零击检测协议-对象检测挑战。
由于数据集规模大,种类繁多,不受限制的性质,并且由于其利用WordNet语义层次结构而独特。利用对象之间的语义关系
类,我们使用“元类”的概念并介绍一种新颖的方法自动更新语义嵌入。
原始语义嵌入是使用文本挖掘以无监督的方式学习,因此他们有相当大的噪音。我们对类嵌入的优化证明是一种
减少这种噪音并学习可靠的语义表示的有效方法。
ZSD在许多新颖的对象定位,检索,跟踪以及推理对象与其环境之间的关系方面具有广泛的应用可用的语义,例如对象名称或自然语言描述。尽管是一个关键问题,但与标准分类相比,ZSD非常困难。零镜头识别问题仅假设一个图像中的单个主要对象并尝试预测其类别ZSD任务必须预测多类别类别标签和准确的位置给定图像中的每个实例。由于图像中每个对象的可能存在的位置可能非常庞大,并且因为语义
类描述比较嘈杂,与分类相比,检测方法更容易受到错误预测的影响。因此,可以预料ZSD方法预测的类标签可能不正确,但在视觉上
并且在语义上类似于相应的true类。例如,错误地预测“蜘蛛”为“蝎子”,由于语义上两者都相似是无脊椎动物。
为解决此问题,我们放松了原始检测问题独立研究视觉和语义上的混乱紧密联系的类之间的相似之处。为此,与ZSD一起,
我们评估零镜头元类检测,零镜头标记和零镜头元类标记。值得注意的是,拟议的网络仅针对ZSD进行了“一次”培训任务和其他任务仅在评估期间使用。
尽管已经提出了基于深度网络的解决方案以实现零击识别,就我们所知,我们提出了第一个端到端可训练网络,用于同时与视觉相关的ZSD问题具有语义标签信息的图像特征。该网络将类的语义嵌入向量视为网络内的固定嵌入,以产生可见和不可见类的预测分数。我们提议一本小说损失公式结合了最大利润学习和基于不同元类的类别分数的语义聚类损失。而最大保证金损失试图分离各个类,语义聚类损失试图减少
通过将相似的类放置在一起并且相异的类分开放置,可以使语义向量中的噪声变大。值得注意的是,我们提出的公式假设已预先定义
看不见的课程,以探索模型学习阶段的语义关系。
这一假设与最近的文献研究一致类语义来解决ZSL 中的域转移问题,并且没有构成转导设置。基于看不见的前提几个实用的零射训练期间,类语义可能是未知的场景中,我们还提出了一种方法的变体,无需进行培训即可预定义的看不见的类。

总结进展

最后,我们提出了一种针对ZSD的比较方法:
扩展了一个流行的零镜头识别框架,名为ConSE ,该框架使用
Faster-RCNN 。
总而言之,本文报告了以下进展:
–我们引入零射击学习的新问题,旨在共同识别并定位复杂场景中的新颖对象。
–我们提出了新的实验方案并设计了新颖的基准解决方案从传统的识别扩展到检测任务。
–我们提出了一种可同时进行的端到端可训练深度架构同时考虑视觉和语义信息。
–我们设计了一种新颖的损失函数,该函数可实现基于元类的最大分类分离和语义聚类的协同效果。除此之外,我们的方法还可以自动调整嘈杂的语义嵌入。

问题描述

给定一组可见物体类别的图像,ZSD旨在识别和识别以前看不见的对象类别的本地化。在本节中,我们正式描述ZSD问题及其相关的挑战。我们还介绍了检测任务的变体,它们是原始问题的自然扩展。

前提

我们描述以下讨论中使用的符号。
考虑一组由S表示的“可见”类S = {1,… ,S},其示例在培训阶段可用,S代表他们的总数。还有另一组“看不见的”类U = {S + 1,… ,S + U},其实例仅在测试阶段可用。我们表示所有对象类均由C = S∪U表示,因此C = S + U表示标签空间。
我们通过将相似的对象类分组来定义一组元(或超级)类归为一个元类别。这些元类用M = {zm:m∈[1,M]},其中M表示元类的总数,zm = {k∈C s.t.,g(k)= m}。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值