On exploring undetermined relationships for visual relationship detection(视觉关系检测中的不确定性关系研究)


2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

Abstract

在视觉关系检测中,人为标记的关系被视为确定关系。然而,有大量未标记的数据,如不太重要甚至没有关系的对象对。将这些未标记但可能有用的数据称为不确定关系。尽管有大量的文献存在,很少有方法利用这些不确定关系来检测视觉关系。

本文研究了不确定关系对视觉关系检测的有益影响。提出了基于多模态特征的不确定关系学习网络(MF-URLN),在关系检测方面取得了很大的改进。具体地,MF-URLN根据设计的标准,通过将对象对与人为标记的数据进行比较,自动生成不确定关系。然后,MF-URLN从视觉、空间、语言三个互补模态中提取并融合对象对的特征。此外,MF-URLN提出了两个相关子网络:一个子网络决定确定性置信度,另一个子网络预测关系。

Introduction

视觉关系检测的目标是检测对象对,同时预测对象对之间的关系。视觉关系一般表示为主谓宾三元组。由于关系三元组是对象和谓词的组合,所以分布是长尾的。

不确定关系包括:
(1)具有关系但未被人为标记的对象对
(2)没有关系的对象对
(3)具有被检测错误的对象的对象对

不确定关系可以作为确定关系的补充,因为:
(1)包含负样本
(2)反映了人类的不喜欢偏好,如不太显著的未标记关系和不寻常表示的关系,杯子在桌上而不是桌子在杯下
(3)不需要人为注释,对视觉关系检测具有有益影响

MF-URLN中,提出了一个生成器来自动生成有用的不确定关系。具体地,使用一个目标检测器来检测对象,两个不同的对象组成一个对象对;然后用一个设计的标准将这个对象对和人为标记的关系进行比较。没有对应确定关系的对象对被分类为不确定关系。对于每个对象对,MF-URLN从三种不同的模态:视觉、空间、语言提取并融合特征。这些特征全面地在一个关系上收集信息。然后,MF-URLN构造两个相关的子网络:一个将对象对描述为确定或不确定,另一个预测关系。此外,第二个子网络使用来自第一个子网络的信息。根据两个子网络的得分决定最终的关系。

主要贡献:
使用不确定关系改进视觉关系检测。提出了一种自动获取有效不确定关系的方法,并提出了一种利用这些不确定关系进行视觉关系检测的模型。

MF-URLN

object detector

定位和检测对象:Faster R-CNN、VGG-16
首先抽样300个IoU>0.7的RPN生成的建议区域。在分类之后,对300个建议区域执行IoU>0.4的NMS。得到的建议区域中类别概率大于0.05的被视为一幅图中的检测对象。

undetermined relationship generator

不确定关系的不同数据集严重影响检测性能。因此,引入了一种自动生成有用的不确定关系的快速方法。

具体地,两个不同的检测对象组成一个对象对。然后,为了分类,将所有对象对与手动注释的关系进行比较。

undetermined relationship learning network

包括multi-modal feature extraction network和relationship learning network

multi-modal feature extraction network

视觉模态特征:有助于收集同一类别在不同情况下的类别特征和多样性。使用来自Faster R-CNN的VGG-16 with ROI pooling,从主宾的各自的框中和对象对中的联合框中提取视觉特征。

空间模态特征:是视觉模态特征的补充,因为ROI pooling删除了对象对的空间信息。(使用坐标计算)

语言模态特征:从语言知识中提供了对象之间的相似性,这些相似性难以从视觉表象和空间位置中得到。在MF-URLN中,从对象检测器中获取对象类别;然后根据与分类器相关的标签提取两种语言模态特征:外部语言特征(维基百科2014的预训练word2vec模型来提取主语和宾语的语义表示,可能包含噪声,因为训练文本不局限于关系)和内部语言特征(作为补充,基于朴素贝叶斯和拉普拉斯平滑计算训练集中所有关系三元组的频率,根据主宾类别将频率转换为概率分布)。

特征融合:同一模态内转换后串联,不同模态转换后串联

relationship learning network

determinate confidence subnetwork:决定了对象对的确定置信度,反映对象对被人为选择和标记的概率。

relationship detection subnetwork:预测所有对象对的关系。

Experiments

github有代码

回答: 本文探索了将普通的Vision Transformer (ViT)作为目标检测的骨干网络。通过对ViT架构进行微调,而无需重新设计分层骨干进行预训练,我们的普通骨干检测器可以取得竞争性的结果。研究发现,只需从单尺度特征图构建简单的特征金字塔(无需常见的FPN设计),并使用窗口注意(无需移动)辅助少量的跨窗口传播块即可。通过使用预先训练的纯ViT主干作为Masked Autoencoders (MAE),我们的检测器ViTDet可以与之前基于分层骨干的领先方法竞争,在COCO数据集上达到61.3 APbox的性能。我们希望这项研究能够引起对普通骨干检测器的关注。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* [论文阅读-ViTDet:Exploring Plain Vision Transformer Backbones for Object Detection](https://blog.csdn.net/qq_37662375/article/details/126675811)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [ViTDet:Exploring Plain Vision Transformer Backbonesfor Object Detection(arXiv 2022)](https://blog.csdn.net/qq_54828577/article/details/127262932)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值