计算机视觉最新进展概览(2021年4月11日到2021年4月17日)

1、Points as Queries: Weakly Semi-supervised Object Detection by Points

针对弱半监督目标检测任务,本文提出了一种新的点标注设置,其中数据集包括小的完全标注图像和大的弱标注图像。它实现了巨大的注释负担和检测性能之间的平衡。基于这种设置,本文分析了现有的检测器,发现这些检测器很难充分利用标注点的能力。为了解决这个问题,本文引入了一个新的检测器,点DETR,它通过添加一个点编码器来扩展DETR。在不同数据集上进行的大量实验表明了该方法的有效性。特别是,当使用来自COCO的20%完全标记的数据时,本文的检测器实现了有希望的性能,33.3 AP,比强基线(FCOS)高出2.0 AP,并且证明了点标注在各种增强现实度量中带来了超过10个点。

2、IQDet: Instance-wise Quality Distribution Sampling for Object Detection

本文提出了一种基于实例采样策略的密集目标检测器,称为IQDet。首先提取每个地面真值的区域特征来估计实例质量分布,而不是使用人类先验采样策略。根据空间维度中的混合模型,分布更加抗噪声,并且适应每个实例的语义模式。基于这种分布,提出了一种质量抽样策略,该策略以概率的方式自动选择训练样本,并用更多的高质量样本进行训练。在COCO上的大量实验表明,方法稳定地提高了基线近2.4。此外,最佳模型实现了51.6 AP,优于所有现有的最先进的一级检测器,并且在推理时间上完全没有成本。

3、Machine-learned 3D Building Vectorization from Satellite Imagery

本文提出了一种基于机器学习的自动三维建筑重建和矢量化方法。以单通道摄影测量数字表面模型(DSM)和全色图像(PAN)作为输入,首先利用条件生成对抗网络(cGAN)过滤掉非建筑物体,并对输入DSM的建筑形状进行优化。然后通过语义分割网络利用改进的DSM和输入PAN图像检测建筑物屋顶的边缘和角落。然后,提出了一套构造屋顶多边形的矢量化算法。最后,从细化DSM的高度信息被添加到多边形中,以获得一个完全向量化的层次细节(LoD)-2建筑模型。在大型卫星图像上验证了方法的有效性,获得了最先进的性能。

4、Incremental Multi-Target Domain Adaptation for Object Detection with Efficient Domain Transfer

多目标域适应技术(MTDA)旨在使识别模型能够很好地跨多个目标域泛化。虽然一些成功的技术已经被提出用于目标检测的无监督单目标域适应(STDA),使用未标记的图像数据使模型适应多个目标域仍然是一个具有挑战性和很大程度上未被探索的问题。关键的挑战包括缺少目标数据的边界框注释、知识破坏以及训练准确的深度检测模型所需的资源不断增长。在适应每个新的目标领域时,需要用以前学习的目标数据对模型进行再训练,这增加了后面的需求。目前,文献中唯一的用于目标检测的MTDA技术依赖于重复模型的蒸馏来避免知识破坏,但没有利用UDA后的源-目标特征对齐。为了解决这些挑战,本文提出了一种新的增量MTDA技术用于目标检测,它可以使检测器适应多个目标域,一次一个,而不必保留以前学习的目标域的数据。而不是蒸馏,本文的技术有效地传输源图像到联合目标域的空间,在飞行中,从而在增量MTDA中保存知识。使用对抗训练,本文的域转移模块(DTM)被优化,以欺骗域分类器将源图像分类,就像转移到目标域一样,从而允许DTM生成接近目标域联合分布的样本。本文提出的技术在不同的MTDA检测基准上得到了验证,结果表明,尽管复杂性显著降低,但它在多个领域提高了准确性。

5、Back-tracing Representative Points for Voting-based 3D Object Detection in Point Clouds

点云中的3D目标检测是一项具有挑战性的视觉任务,有利于理解3D视觉世界的各种应用。最近的许多研究集中在如何利用端到端可训练的霍夫投票来生成目标提议。然而,当前的投票策略只能从潜在目标的表面获得部分投票,同时从杂乱的背景中获得严重的离群投票,这阻碍了对来自输入点云的信息的充分利用。受传统霍夫投票方法中回溯策略的启发,本文提出了一种新的三维物体检测方法——回溯代表点网络(BRNet),该方法从投票中心生成回溯代表点,并重新访问这些生成点周围的互补种子点,以便从原始点云更好地捕捉潜在物体周围的精细局部结构特征。因此,在我们的BRNet中,这种自下而上然后自上而下的策略加强了预测的投票中心和原始表面点之间的相互一致性,从而实现了更可靠和灵活的对象定位和类预测结果。本文的BRNet简单而有效,在两个大规模点云数据集上,它的性能明显优于最先进的方法,扫描网V2 (+7.5%的mAP@0.50)和太阳RGB-D (+4.7%的mAP@0.50),同时它仍然是轻量级和高效的。代码将在此https网址提供。

6、OCM3D: Object-Centric Monocular 3D Object Detection

纯图像和伪激光雷达表示通常用于单目3D目标检测。然而,基于它们的方法要么不能很好地捕捉相邻图像像素之间的空间关系,要么难以处理单目伪激光雷达点云的噪声特性。为了克服这些问题,本文提出了一种新的以物体为中心的体素表示方法,用于单目三维物体检测。具体来说,体素建立在每个对象建议上,它们的大小由点的3D空间分布自适应地确定,允许有噪声的点云在体素网格内有效地组织。这种表示被证明能够在三维空间中精确地定位物体。此外,先前的工作希望通过从整个图像或噪声点云提取的深层特征来估计方位。相比之下,来自目标图像块的局部RoI信息单独使用适当的调整大小方案是更好的输入,因为它提供了完整的语义线索,同时排除了不相关的干扰。此外,通过考虑三维物体与相关2D盒之间的关系,分解了单目三维物体检测中的置信度机制。

7、VR3Dense: Voxel Representation Learning for 3D Object Detection and Monocular Dense Depth Reconstruction

三维目标检测和密集深度估计是自动驾驶中最重要的任务之一。多种传感器模式可以共同赋予机器人更好的感知能力,为此,本文提出了一种联合训练三维目标检测和单眼密集深度重建神经网络的方法。在推理过程中,它将激光雷达点云和单一RGB图像作为输入,并生成物体姿态预测和密集重建的深度图。将激光雷达点云转换为一组体素,利用三维卷积层提取其特征,并从中回归对象姿态参数。使用另一种二维卷积神经网络提取相应的RGB图像特征。本文进一步使用这些组合特征来预测密集深度地图。虽然本文的目标检测是在监督的方式训练,深度预测网络是训练自我监督和监督损失函数。本文还引入了一种损失函数—保留边缘平滑损失,并表明与常用的深度预测方法—边缘感知平滑损失函数相比,这种方法能获得更好的深度估计。

8、Geometry-aware data augmentation for monocular 3D object detection

本文主要研究自主驾驶系统中的关键模块之一——单目三维物体检测。一个关键的挑战是深度恢复问题在单目数据中不适定。在这项工作中,我们首先进行彻底的分析,以揭示现有的方法如何在不同的几何位移发生时无法稳健地估计深度。特别地,通过对当前检测器的一系列基于图像和基于实例的操作,说明了现有检测器在捕捉深度和物体表观尺寸和位置之间的一致关系方面是脆弱的。为了缓解这个问题并提高检测器的鲁棒性,将上述操作转换为四种相应的3D感知数据增强技术。在图像级,随机操纵相机系统,包括其焦距、感受野和位置,以生成具有几何位移的新训练图像。在实例级,裁剪前景对象,并将其随机粘贴到其他场景,以生成新的训练实例。所有提出的增强技术都有一个共同的优点,即目标中的几何关系在它们的几何被操纵时被保留。根据所提出的数据增强方法,不仅有效地缓解了深度恢复的不稳定性,而且最终的3D检测性能也得到显著提高。这导致了KITTI和nuScenes单目3D检测基准的卓越改进,具有最先进的结果。

9、Glance and Gaze: Inferring Action-aware Points for One-Stage Human-Object Interaction Detection

现代人物交互(HOI)检测方法可分为一阶段法和两阶段法。单级模型由于其简单的体系结构而更加有效,但是两级模型在精度上仍然是有利的。现有的单阶段模型通常从检测预定义的交互区域或点开始,然后只关注这些区域进行交互预测;因此,他们缺乏动态搜索辨别线索的推理步骤。本文提出了一种新的一阶段方法,即扫视和凝视网络,它通过扫视和凝视步骤自适应地建模一组动作感知点。扫视步骤快速确定特征图中的每个像素是否是交互点。凝视步骤利用由扫视步骤产生的特征图,以渐进的方式自适应地推断每个像素周围的活动点。为了相互作用预测,聚集了精细动作点的特征。此外,我们设计了一种行动感知方法,有效地将每个检测到的交互与其相关联的人-对象对进行匹配,并使用一种新的硬负面注意损失来改进GGNet的优化。对于特征图中的所有像素,所有上述操作同时且有效地进行。最后,在V-COCO和HICODET基准上,GGNet的性能远远优于最先进的方法。

10、Deformable Capsules for Object Detection

胶囊网络通过存储更强的内部表示和基于中间表示投影之间的一致性的路由信息,比卷积网络有显著的优势。尽管如此,由于计算量大,它们的成功大多局限于小规模分类数据集。最近的研究已经通过用卷积胶囊局部约束特征的动态路由部分地克服了这个负担。尽管存储效率高,但卷积胶囊强加了几何约束,从根本上限制了胶囊对对象的姿态/变形进行建模的能力。此外,它们没有解决更大的内存问题,即类胶囊扩大到更大的任务,如检测或大规模分类。本研究引入了可变形胶囊、新胶囊结构和新的动态路由算法,以平衡计算效率和对大量目标和类建模的需要。我们证明,所提出的方法首次允许胶囊有效地扩大到大规模计算机视觉任务,并创建了文献中第一个用于目标检测的胶囊网络。提出的架构是一个一阶段的检测框架,并在COCO上获得与最先进的一阶段基于CNN的方法相当的结果,同时产生更少的假阳性检测。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wanderer001

ROIAlign原理

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值