论文阅读《Hybrid Knowledge Routed Modules for Large-scale Object Detection》

动机:现有的目标检测方法分别处理每个区域的识别,忽略了场景中物体之间的关联的语义关联信息。而这种模式面临着严重的长尾问题时性能会下降。

创新点:(1)本文要利用人类常识知识来对大型对象类别进行推理,并在一幅画中达到语义一致性。由此提出了混合知识路由模块(Hybrid Knowledge Routed Modules :HKRM)。(2)该模块包含两个部分:用于结构化约束的显式模块(用来约束关于概念的语言知识,例如关系和属性)和一个隐式模块(用来描述一些隐性约束,如空间布局)。

模型

       从图中可以看到包括两个模块:显式模块,隐式模块。最后通过集成各模块的特征进行目标检测。

       其中显式知识模块是由外部知识作为边缘连接进行监督构建区域间的知识图。而隐式知识模块作者提到无需明确定义或者人工总结即可学习。从上图中可以看到以图像作为输入,通过区域提议网络RPN为每一个提议网络提取视觉特征。基于区域特征,每个模块构建一个自适应的区域到区域的无向图。然后每个模块输出集成了特定知识的增强特征。最后将几个模块的输出串联在一起,并进行检测。

如下图为显式知识模块的更新。该模块中每对区域图节点之间连接,这个过程是由知识图进行监督学习。首先时以f的pairwise L1 difference作为输入,通过堆叠的MLP生成区域到区域的图,过程由外部知识Q来监督学习。然后利用生产的知识图对特征增强。最终将增强后的特征和原来的特征连接产生最后的检测结果。这里的Q=<C,V>:作为具有C类图节点及其先验边缘权值的类图,如属性图和关系图。

       对于隐式知识模块无需明确定义或者人工总结即可学习,如空间布局例如天花板总是在所有物上,水在船、山和天空下。

知识图的构建:借助VG数据集中的注释的统计信息来创建属性知识图和关系知识图。

结果

       使用的数据集:Visual Genome 和 ADE。对于 VG数据集使用其1000个和3000个最频繁的类:VG1000,VG3000;将带有这些类的图像分为训练集和测试集。对于ADE也进行分割为训练集和数据集。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值