小白科研笔记：点云目标检测相关文献速读-Part A

最新推荐文章于 2024-05-31 11:47:33 发布

Niuip

最新推荐文章于 2024-05-31 11:47:33 发布

阅读量996

点赞数

分类专栏： computer vision论文代码分析

本文链接：https://blog.csdn.net/qq_39732684/article/details/105309149

版权

computer vision论文代码分析专栏收录该内容

43 篇文章 39 订阅

订阅专栏

1. 前言

网络训练的时候基本做不了代码上的活，那就多读读目标检测的文献呗。

2. TANet

首先来看AAAI2020的文章“TANet: Robust 3D Object Detection from Point Clouds with Triple Attention”。这篇文章的核心创新点有两个：

Triple Attention（译为三重注意力机制）
Coarse-to-Fine Regression (CFR) module

在对车辆识别的准确率低于同年的SOTA方法，但是对于行人自行车识别的准确率是Top。此外，实验效果表明TANet对点云上面的噪声比较鲁棒。该方法也是为数不多的在目标检测网络上使用注意力机制的模型。TANet的网络结构示意图为：

在这里插入图片描述
图1：TANet示意图；其中TA模块是可扩展的特征提取模块；

2.1 Triple Attention

$V$ 是输入体素。三重注意力机制分别由Point-wise，Channel-wise，和Voxel-wise组成。首先使用Point-wise和Channel-wise得到融合的注意力特征图 $M$ 。根据它得到注意力作用后的体素特征 $F_l$ 。Voxel-wise表示体素注意力机制，即体素点云中哪些体素是重要的，而哪些是不重要的。体素注意力机制作用在 $F_1$ 上，得到最终体素特征 $F_2$ 。体素注意力机制是个很有启发性的机制，有直观的意义。
在这里插入图片描述
图2：Triple Attention示意图

2.2 Coarse-to-Fine Regression module

这个模块比较容易理解，如下图所示。Fine Regression输入是Coarse Regression的中间变量。可以说Coarse Regression部分网络指导Fine Regression部分网络。结构上跟SA-SSD有点相似。
在这里插入图片描述
图3：Coarse-to-Fine Regression module示意图

3. 3D IoU-Net

这是篇2020年的预印文章“3D IoU-Net: IoU Guided 3D Object Detector for Point Clouds”。这篇文章的核心创新点有两个：

Attentive Corner Aggregation（ACA模块）
Corner Geometry Encoding（CGE模块）

双阶段的目标检测算法。实验效果是在有些指标上优于SOTA算法。整体网络框图如下所示：

在这里插入图片描述
图4：3D IoU-Net示意图（从图上可以看出，Refine 3D Boxes会反过来作用在输入流上。这是双阶段的目标检测的特征。）

3.1 Attentive Corner Aggregation

ACA模块是TANet中的注意力机制模块的一种修改版（对Point-wise和Channel-wise做的修改），ACA中的注意力权值矩阵是由下面的示意图来说明：

在这里插入图片描述
图5：ACA模块示意图

3.2 Corner Geometry Encoding

CGE模块意图在于提取目标点和它周围七个近邻点（一共就是八个点）的几何信息：

在这里插入图片描述
图6：CGE模块示意图

CGE模块不难理解，对应的数学公式为：

在这里插入图片描述

4. Point-GNN

这是篇CVPR2020的文章“Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud”。这篇文章的核心创新点是设计一个图神经网络单元，用来提取点云特征。这篇文章的综述部分总结了三种常见的提取点云特征的方法：（1）基于体素的特征提取方法；（2）基于点云近邻几何的特征提取方法；（3）基于图的点云提取方法。个人觉得（2）和（3）的差别不是特别大。这篇文章的综述值得参考。

在这里插入图片描述
图7：三种常见的提取点云特征的方法