RV图详解 RV BEV SFV是点云输入后的三种转换形式
关于RV图更多解释以及近期进展可以看24年最新综述: 《Small, Versatile and Mighty: A Range-View Perception Framework》
前辈总结的SalsaNet和SalsaNext的区别 写得太好了,搞的我都不想自己看了(大家还是别偷懒,看看前辈的经验也要自己再认真看原文)
SalsaNet数据处理:
论文中经实验证明,转换为鸟瞰图BEV时效果最好,所以SalsaNet采用此方式,BEV是四通道(点在原来点云中的平均高度、最高高度、平均反射率以及投影点数目),SFV是六通道(3d坐标系下的坐标、强度值i、范围r以及一个用于表示是否被占用的掩码)
SalsaNet网络结构:
encoder 中的每一个块都是最经典的 ResNet + dropout pooling , 在 decoder 里使用了 Transconv ,最后 softmax,如此经典
SalsaNext数据处理:
四通道BEV变为五通道RV(x y z 强度值 (i) 范围索引 ®)
SalsaNext网络结构:
- 在编码器之前引入了一个新的上下文模块,该模块由融合不同尺度感受野的残差扩张卷积堆栈组成—感受野增大会增加参数的规模,也就是让训练开销更大,所以SalasNext在encoder里面增加了扩张卷积/空洞卷积/膨胀卷积/Dilated Convolution的部分,实现了感受野的增大
- 在decoder中使用了一个像素拖拽层,简单来说就是把不同通道上的像素拖到另一个通道上,相当于将像素重新处理,起到上采样的作用
- 将静态模型改为了动态的模型—原来的SalsaNet本质上是一个静态的模型,一旦训练结束后,权重实际上就是一个固定的内容,并不会因为数据的变化而产生变化。但是考虑到数据和模型存在的不确定性,SalsaNext将网络换为了贝叶斯网络,将权重换为了一个分布。
贝叶斯网络(BNN)与反向传播网络(BPNN):反向传播网络在优化完毕后,其权重是一个固定的值,而贝叶斯神经网络把权重看成是服从均值为μ \muμ,方差为δ \deltaδ的高斯分布,每个权重服从不同的高斯分布,反向传播网络优化的是权重,贝叶斯神经网络优化的是权重的均值和方差,所以贝叶斯神经网络需要优化的参数是反向传播网络的两倍