目标检测排行榜_CVPR2020|3D目标检测算法推荐论文源码大盘点

本文汇总了CVPR 2020关于目标检测的论文,重点是3D目标检测,包括基于LiDAR的在线3D视频目标检测、点云结构感知单阶段3D检测等。这些算法在自动驾驶领域表现出色,如在KITTI BEV排行榜上有高排名。文章提供了论文链接和开源代码资源。
摘要由CSDN通过智能技术生成

本文收集了CVPR 2020 关于目标检测相关论文和算法,自动驾驶依然热门,所以带动着3D目标检测论文居多,当然2D目标检测依旧热门,神经架构搜索也开始在应用与目标检测,样本少和跨域的研究也是非常值得关注研究。

14a3f6baf46fa30a6133e179fdb018a4.png

我们开始吧~

先看看3D目标检测相关论文

1.基于LiDAR的在线3D视频目标检测

简要:现有的基于LiDAR的3D对象检测器通常专注于单帧检测,而忽略了连续点云帧中的时空信息。在本文中,我们提出了一种在点云序列上运行的端到端在线3D视频对象检测器。所提出的模型包括空间特征编码组件和时空特征聚集组件。在前一个组件中,提出了一种新颖的支柱消息传递网(PMPNet)对每个离散点云帧进行编码。它通过迭代消息传递来自适应地从其相邻节点收集有关某个支柱节点的信息,从而有效地扩大了支柱要素的接收范围。在后一部分中,我们提出了一个时空变压器GRU(AST-GRU)来汇总时空信息,通过专注的内存门控机制增强了传统的ConvGRU。AST-GRU包含一个空间变压器注意(STA)模块和一个时间变压器注意(TTA)模块,它们可以分别强调前景对象并对齐动态对象。实验结果表明,提出的3D视频对象检测器在大规模nuScenes基准上达到了最新的性能。

c7ab3c2e2aabda87a46d627024c4272e.png

论文地址:

https://arxiv.org/pdf/2004.01389.pdf

开源地址:

https://github.com/yinjunbo/3DVID

2.从点云进行结构感知的单阶段3D对象检测

该论文提出了一个通用、高性能的自动驾驶检测器,首次实现3D物体检测精度与速度的兼得,有效提升自动驾驶系统安全性能。目前,该检测器在自动驾驶领域权威数据集KITTI BEV排行榜上排名第三。

79c7f4ad4b077f311d9b0364a9438621.png

6746b6d3888dce38b10866e2c71f0fdb.png

论文地址:

https://www4.comp.polyu.edu.hk/~cslzhang/paper/SA-SSD.pdf​www4.comp.polyu.edu.hk

3.DSGN: Deep Stereo Geometry Network for 3D Object Detection

该论文基于图像的方法与LiDAR的方法之间存在差距,因此大多数最先进的3D对象检测器都严重依赖LiDAR传感器。它是由3D场景中形成表示预测的方式引起的 。我们的称为深度立体几何网络(DSGN)的方法通过在可分辨的体积表示形式3D几何体上检测3D对象来显着的识别此差异,该3D几何体可有效地为3D规则空间编码3D几何结构。通过这种表示,我们可以同时学习深度信息和语义提示。我们首次提供了一种简单有效的基于立体声的单阶段3D检测管道,该管道可以以端到端的学习方式联合深度并检测3D对象。的方法先前以前的基于立体声的3D检测器(在AP方面要高出约10个),甚至可以在KITTI 3D对象检测排行榜上与多种基于LiDAR的方法获得可比的性能。

8140c60f30e24e1a349aa42bb41127bc.png

论坛地址:

https://arxiv.org/pdf/2001.03398.pdf

源码地址:

https://github.com/Jia-Research-Lab/DSGN​github.com

4.学习用于单眼3D对象检测的深度引导卷积

由于缺乏准确的深度信息,从没有LiDAR的单个图像进行3D对象检测是一项艰巨的任务。常规2D卷积不适合此任务,因为它们无法捕获本地对象及其比例信息,这对于3D对象检测至关重要。为了更好地表示3D结构,现有技术通常将根据2D图像估计的深度图转换为伪LiDAR表示,然后应用现有的基于3D点云的对象检测器。但是,它们的结果在很大程度上取决于估计的深度图的准确性,从而导致性能欠佳。在这项工作中,我们不使用伪LiDAR表示,而是通过提出一个新的局部卷积网络(LCN),称为深度引导动态深度扩展LCN(D ^ 4),改进了基本的2D全卷积。4LCN),可以从基于图像的深度图自动获知滤镜及其接收场,从而使不同图像的不同像素具有不同的滤镜。D 4 LCN克服了传统2D卷积的局限性,缩小了图像表示和3D点云表示之间的差距。大量实验表明,D 4 LCN在很大程度上优于现有作品。例如,在中等设置下,D 4 LCN相对于KITTI的最新水平的相对改进为9.1%

7518e047ff338bd9edfe096b4ef0db8c.png

论文地址:

https://arxiv.org/pdf/1912.04799.pdf

源码地址:

https://github.com/dingmyu/D4LCN​github.com

5.What You See is What You Get: Exploiting Visibility for 3D Object Detection

3D感测的最新进展为计算机视觉带来了独特的挑战。一个基本挑战是找到3D传感器数据的良好表示形式。在处理真正的3D数据(例如,从网格模型采样的点)的背景下提出了最流行的表示形式(例如PointNet),而忽略了诸如LiDAR扫掠等3D传感数据实际上为2.5D的事实。我们认为将2.5D数据表示为(x,y,z)点的集合会从根本上破坏有关自由空间的隐藏信息。在本文中,我们证明了此类知识可以通过3D射线广播有效地恢复,并且可以轻松地并入基于批次的梯度学习中。我们描述了一种通过可见性增强基于体素的网络的简单方法:我们添加了体素化的可见性图作为附加的输入流。此外,我们展示了可视性可以与最新3D检测器的两个关键修改相结合:虚拟对象的合成数据增强和多个时间范围内LiDAR扫描的时间聚合。在NuScenes 3D检测基准上,我们表明,通过为可见性输入添加附加流,我们可以显著提高最新3D检测器的总体检测精度。

e31bd2d19dc4d9fe94cdb4a8775d2235.png

论文地址:

https://arxiv.org/pdf/1912.04986.pdf

作者主页:

https://www.cs.cmu.edu/~peiyunh/wysiwyg/

源码地址:

https://github.com/peiyunh/wysiwyg​github.com

6.Associate-3Ddet: Perceptual-to-Conceptual Association for 3D Point Cloud Object Detection

尽管最近的研究推动了深度学习技术的发展,但从3D点云进行对象检测仍然是一项艰巨的任务。由于严重的空间遮挡和点密度与传感器之间距离的固有差异,因此在点云数据中同一对象的外观变化很大。因此,针对这种外观变化设计鲁棒的特征表示是3D对象检测方法中的关键问题。在本文中,我们创新地提出了一种域自适应之类的方法来增强特征表示的鲁棒性。更具体地说,我们弥合了特征来自真实场景的感知域和概念域之间的差距,概念域中的特征域是从包含丰富详细信息的非遮挡点云的增强场景中提取特征的。在进行对象感知时,这种域适应方法可模仿人脑的功能。大量实验表明,我们简单而有效的方法从根本上提高了3D点云对象检测的性能,并获得了最先进的结果。

论文地址:

https://arxiv.org/pdf/2006.04356.pdf

源码地址:

https://github.com/dleam/Associate-3Ddet​github.com

7.SESS: Self-Ensembling Semi-Supervised 3D Object Detection

现有基于点云的3D对象检测方法的性能在很大程度上依赖于大规模高质量3D注释。但是,这样的注释通常很乏味并且收集起来很昂贵。半监督学习是减轻数据注释问题的一种不错的选择,但在3D对象检测中仍未得到充分研究。受到最近在半监督图像分类任务中成功实现自组装技术的启发,我们提出了自组装半监督3D对象检测框架SESS。具体而言,我们设计了一种彻底的扰动方案,以增强网络在未标记和新的看不见的数据上的泛化能力。此外,我们提出了三个一致性损失,以增强两组预测的3D对象建议之间的一致性,从而有助于学习对象的结构和语义不变性。在SUN RGB-D和ScanNet数据集上进行的广泛实验证明了SESS在感应式和感应式半监督3D对象检测中的有效性。与最新的完全监督方法相比,我们的SESS仅使用50%的标记数据即可实现竞争优势。

e7e42edcffe24fd0bcd7447dfba0659c.png

论文地址:

https://arxiv.org/pdf/1912.11803v1.pdf

源码地址:

https://github.com/Na-Z/sess​github.com

8.Density-Based Clustering for 3D Object Detection in Point Clouds

Syeda Mariam Ahmed, Chee Meng Chew

2f3c0a3710ef964e50af2e3495e21bdc.png

论文地址:

http://openaccess.thecvf.com/content_CVPR_2020/papers/Ahmed_Density-Based_Clustering_for_3D_Object_Detection_in_Point_Clouds_CVPR_2020_paper.pdf​openaccess.thecvf.com

9.Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance Disparity Estimation

在本文中,我们提出了一种名为Disp R-CNN的新颖系统,用于从立体图像中检测3D对象。许多最近的工作通过首先使用视差估计恢复点云,然后应用3D检测器来解决此问题。对于整个图像计算视差图,这是昂贵的并且不能利用特定于类别的先验。相反,我们设计了一个实例视差估计网络(iDispNet),该网络仅预测感兴趣对像上像素的视差,并在获得特定类别的形状之前先进行更精确的视差估计。为了解决培训中视差标注的稀缺性带来的挑战,我们建议使用统计形状模型来生成密集的视差伪地面真相,而无需使用LiDAR点云,这使得我们的系统更广泛地适用。

a7909e97a1a4aa007198f8f6aa40e7d0.png

论文地址:

https://arxiv.org/pdf/2004.03572.pdf

源码地址:

https://github.com/zju3dv/disprcnn​github.com

10.LCVNet: Multi-Level Context VoteNet for 3D Object Detection

在本文中,我们通过利用自注意力机制和多尺度特征融合捕获多级上下文信息来解决3D对象检测任务。大多数现有的3D对象检测方法可以单独识别对象,而无需考虑这些对象之间的上下文信息。相比较而言,我们提出了多级上下文投票网(MLCVNet),以基于最新的投票网来关联地识别3D对象。我们在VoteNet的投票和分类阶段引入了三个上下文模块,以在不同级别上对上下文信息进行编码。具体地,在投票给它们对应的对象质心点之前,采用补丁到补丁上下文(PPC)模块来捕获点补丁之间的上下文信息。随后,在提议和分类阶段之前合并了一个对像到对像上下文(OOC)模块,以捕获对象候选对象之间的上下文信息。最后,设计了一个全局场景上下文(GSC)模块来学习全局场景上下文。我们通过在补丁,对象和场景级别捕获上下文信息来演示这些内容。我们的方法是提高检测精度,在具有挑战性的3D对象检测数据集(例如SUN RGBD和ScanNet)上实现最新的最新检测性能的有效方法。我们还在以下位置发布了代码 对象和场景级别。我们的方法是提高检测精度,在具有挑战性的3D对象检测数据集(例如SUN RGBD和ScanNet)上实现最新的最新检测性能的有效方法。我们还在以下位置发布了代码 对象和场景级别。我们的方法是提高检测精度,在具有挑战性的3D对象检测数据集(例如SUN RGBD和ScanNet)上实现最新的最新检测性能的有效方法。

fdbccbeba1c1a3de69328b5abae18530.png

论文地址:

https://arxiv.org/pdf/2004.05679.pdf

源码地址:

https://github.com/NUAAXQ/MLCVNet​github.com

10.ImVoteNet: Boosting 3D Object Detection in Point Clouds With Image Votes

005ed4764b71ed20edd566a88564803a.png

得益于点云上深度学习的进步,3D对象检测取得了快速进展。仅有点云输入(例如VoteNet),一些最新作品甚至显示了最新的性能。但是,点云数据具有固有的局限性。它们稀疏,缺乏颜色信息,并且经常遭受传感器噪声的影响。另一方面,图像具有高分辨率和丰富的纹理。因此,它们可以补充点云提供的3D几何形状。然而,如何有效地使用图像信息来辅助基于点云的检测仍然是一个悬而未决的问题。在这项工作中,我们以VoteNet为基础,并提出了一种称为ImVoteNet的3D检测架构,专门用于RGB-D场景。ImVoteNet基于融合图像中的2D投票和点云中的3D投票。与先前有关多模式检测的工作相比,我们从2D图像中明确提取了几何特征和语义特征。我们利用相机参数将这些功能提升为3D。为了提高2D-3D特征融合的协同作用,我们还提出了一种多塔训练方案。我们在具有挑战性的SUN RGB-D数据集上验证了我们的模型,将最新结果提高了5.7 mAP。

论文地址:

https://arxiv.org/pdf/2001.10692v1.pdf

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值