【论文阅读+代码复现】Attentional PointNet

最新推荐文章于 2024-02-02 11:15:23 发布

Little_sky_jty

最新推荐文章于 2024-02-02 11:15:23 发布

阅读量2.1k

点赞数 2

分类专栏：深度学习-点云基础网路-分类 CV-Detection 3D语义分割

本文链接：https://blog.csdn.net/weixin_40805392/article/details/100164461

版权

深度学习-点云基础网路-分类同时被 3 个专栏收录

35 篇文章 52 订阅

订阅专栏

CV-Detection

33 篇文章 36 订阅

订阅专栏

3D语义分割

8 篇文章 5 订阅

订阅专栏

Brief

前段时间开始以为想到了一些不错的idea，实际上的实验效果也很一般了。陷入了没有想法的阶段，那就读一读比较新的papar获得一下别人的想法吧。也所谓“问渠那得清如许?唯有源头活水来”。

Abstruct

attention机制结合pointent到3D数据检测模型

Introduction

We aim to design an efficient but simple architecture providing real-time performance on lower compute capability hardware

作者在点云上使用视觉注意力机制来有顺序的检测包含兴趣区域的小区域。
多物体检测
可以做到实时检测

Related work

Converting point clouds into 2D images
Converting point clouds into volumetric forms
Another approach is inferring 3D bounding boxes directly from 2D images

We chose PointNet as the backbone for our model.

3 Attentional PointNet

首先讲了一大段的视觉注意力的现实描述，比如男生喜欢看漂亮的女孩子。如果有了注意力，那么就会减少计算的带宽。

Focusing onto smaller relevant parts of the scene saves “computational bandwidth” as only fewer pixels need
to be processed.

RNN ：每一次的迭代都会跑输入的某一个的分辨率输入。不能使用BG来训练—>STN。

3.1 Proposed Architecture

在这里插入图片描述
主要是以下几个部分：

Context Network
Recurrent Localization Network
3D Transformer
Resampler
Classifier
3D Box Estimation

3.2. Context Network

输入是两部分

raw data ： $12m\times12m$
height map:上面输入数据的垂直投影， $120\times120$ cells

最后一步的合并的对其是很重要的：

Alignment of two embedding spaces was crucial after thorough experimentation we found addition gives equally good results as concatenation while keeping the network capacity low

3.3. Recurrent Localization Network

The Recurrent Localization Network is the heart of our Attentional PointNet architecture

the recurrent localization network sequentially attends to the location of the new object at every iteration (i).

每一次迭代都会去定位一些新的物体。该结构分成两个主要的部分：

The recurrent part consist of a GRU layer。输入是两部分，其一是context的输入 $(B, 1024)$ ，另外一部分是上一次GRU的输出 $h_{i-1}(B,512)$
3层的FC结构，每次的输入都是GRU输出的 $h_i$ ，用于回归5个参数 $\left(\cos \theta_{i}, \sin \theta_{i}, T x_{i}, T y_{i}, T z_{i}\right) \in \Theta_{i}$ ,这是一个3D变换矩阵，对应了attention操作（选择了attended glimpse）。
为了简单，作者仅仅考虑 $y a w$ 的旋转，因此我们可以把变换矩阵写成：

$T\left(\Theta_{i}\right)=\left[\begin{array}{cccc}{\cos \theta_{i}} & {-\sin \theta_{i}} & {0} & {T x_{i}} \\ {\sin \theta_{i}} & {\cos \theta_{i}} & {0} & {T y_{i}} \\ {0} & {0} & {1} & {T z_{i}} \\ {0} & {0} & {0} & {1}\end{array}\right]$

这里先挖一个坑，后续想明白了和想起来再来填：这个矩阵具体怎么用？

3.4. 3D Transformer and Resampler

上面得到了一个变换矩阵，那么下面就要用了。如下使用，没想到这么快就填坑了。
$\left[\begin{array}{l}{x_{i}^{t}} \\ {y_{i}^{t}} \\ {z_{i}^{t}} \\ {1}\end{array}\right]=T\left(\Theta_{i}\right)\left[\begin{array}{c}{x_{i}^{s}} \\ {y_{i}^{s}} \\ {z_{i}^{s}} \\ {1}\end{array}\right]$
也就是对于原始的点云输入乘以这个矩阵就好了。这个操作也就是把坐标中心和对应的bbox大小改变以适合interest objects。
在这里插入图片描述

3.5. Localization and recognition

既然上面得到了感兴趣区域点（包含512个point），那么这一部分就要处理这些点了嘛。
作者的回归方式采用的是一个lighe-weight的pointenet(T-net),作者修改后的T-Net回归5个参数。也就是：
$\left(\cos \delta_{i}, \sin \delta_{i}, t x_{i}, t y_{i}, t z_{i}\right) \in \Delta_{i}$
这个代表了真正的中心点和旋转角度。当然也要回归 $(W, H, L)$ 。
也就是说在回归中心点位置和旋转方向上，进行了两次位置旋转，综合起来就是：
$T\left(\Psi_{i}\right)=T\left(\Theta_{i}\right) * T\left(\Delta_{i}\right)$
物体类别的判断采用的是两层FC结构，其输入是从GRU得到的 $h_i$ ,输出一个分数

4. Training & Experiments

KITTI数据集：测试集是没有label的，因此我们把训练集合7:3的分成训练集和测试集。

4.1. Data Augmentation

数据划分如下图；采用具有 $o v e r l a p = 1 m$ 的方式进行划分。

在这里插入图片描述

裁剪成小区域
每个区域取样点 $4096$ 个
每个分割后的区域都编码其高度信息生成120×120 pixels的灰度图。如下图所示：中间的。

在这里插入图片描述
在height map的投影过程中需要注意以下几点：

每个像素格子大致占据的高度为 $r = 10 c m m$
z轴选择的高度为 $[- 2 m, 3 m]$ ，目的是差不多刚好覆盖高度为3m的地标物体。
投影规则：

$\begin{array}{c}{\mathrm{P}_{i \rightarrow j}=\left\{\mathrm{P}_{i}=[x, y, z]^{T} | S_{j}=f_{\mathrm{PS}}\left(\mathrm{P}_{i}, r\right)\right\}} \\ {H\left(S_{j}\right)=\max \left(\mathrm{P}_{i \rightarrow j} \cdot[0,0,1]^{T}\right)}\end{array}$

数据增广操作，和second中是一样的，首先建立一个gt_data_base，然后随机向场景里边丢gt_box。

4.2. Loss Function

所有模型都采用下面这个统一的损失函数：
$\begin{array}{c}{L_{s e q-i}=\alpha * L_{c l s}+\beta\left(L_{T 1-r e g}+L_{T 2-r e g}\right)} \\ {+\gamma * L_{s i z e-r e g}+\lambda * L_{r e g}} \\ {\qquad L_{f i n a l}=\frac{1}{3} \sum_{i=1}^{n=3} L_{s e q-i}} \\ {L_{r e g}=\left\|I-T(\Psi) T(\Psi)^{T}\right\|^{2}}\end{array}$

BCE作为判别损失，smooth-L1作为回归损失。

5 代码工作

这里是 code

5.1 运行源代码

运行环境：

Python 2.7
CUDA 9.1
PyTorch 1.0
scipy
shapely

另外需要ROS，这里是为了显示用的

ROS
PCL

由于我没有能装ROS的权限，因此显示这一步先不错。
由于第一步数据分割就要ROS包，因此放弃了。

Little_sky_jty

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
【论文阅读+代码复现】Attentional PointNet

Brief 前段时间开始以为想到了一些不错的idea，实际上的实验效果也很一般了。陷入了没有想法的阶段，那就读一读比较新的papar获得一下别人的想法吧。也所谓“问渠那得清如许?唯有源头活水来”。Abstructattention机制结合pointent到3D数据检测模型IntroductionWe aim to design an efficient but simple arc...
复制链接

扫一扫

专栏目录