点云处理网络中的Shared MLP

cccchensir

已于 2022-07-09 17:30:34 修改

阅读量6.4k

点赞数 12

分类专栏：点云学习笔记文章标签：网络深度学习 python

于 2020-09-05 22:01:09 首次发布

本文链接：https://blog.csdn.net/cccchensir/article/details/108425013

版权

学习笔记同时被 2 个专栏收录

5 篇文章

订阅专栏

点云

2 篇文章

订阅专栏

在点云处理网络中常看到Shared MLP的网络结构，它和我们认知的多层感知机MLP有什么区别和联系呢？

PointNet网络结构

结论

被广泛应用的Shared MLP（用于减少网络的训练参数，实现类似CNN的权值共享机制）其本质是用[1,1]大小的卷积核去做卷积操作，减少了大量的参数。

分析PointNet的源代码model/pointnet_seg.py/get_model():
其中输入为Batch_size x 点数 x 3（点云坐标），输出为Batch_size x 点数 x 50（分类）

具体被用来做shared MLP的是函数tf_util.conv2d() ，PointNet中的具体函数如下：

net = tf_util.conv2d(input_image, 64, [1,3],
                         padding='VALID', stride=[1,1],
                         bn=True, is_training=is_training,
                         scope='conv1', bn_decay=bn_decay)

在tf_util.py中我们可以找到PointNet中使用的conv2d()函数，对应到tf.nn.conv2d的调用则如下：

def conv2d(inputs,
           num_output_channels,
           kernel_size,
           scope,
           stride=[1, 1],
           padding='SAME',
           use_xavier=True,
           stddev=1e-3,
           weight_decay=0.0,
           activation_fn=tf.nn.relu,
           bn=False,
           bn_decay=None,
           is_training=None):
      kernel_h, kernel_w = kernel_size
      num_in_channels = inputs.get_shape()[-1].value
      kernel_shape = [kernel_h, kernel_w,
                      num_in_channels, num_output_channels]
      kernel = _variable_with_weight_decay('weights',
                                           shape=kernel_shape,
                                           use_xavier=use_xavier,
                                           stddev=stddev,
                                           wd=weight_decay)
      stride_h, stride_w = stride
      outputs = tf.nn.conv2d(inputs, kernel,
                             [1, stride_h, stride_w, 1],
                             padding=padding)

其中比较重要的参数有：num_output_channels = 64，kernel_size = [1, 3]，stride = [1, 1]。对应到tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, name=None)函数。

（1）输入数据为[Batch_size, 点数, 3, 1]；

（2）卷积核大小为[1, 3, 1, 64]，具体含义为卷积核的高度为1，宽度为3，图像通道数为1，卷积核数为64，即64个1x3的卷积核；

（3）步长为[1, 1]

最后的输出是[Batch_size, 点数, 1, 64]。可以理解为，每个[1,3]的卷积核依次对点进行卷积得到[点数,1,1]，即新生成一个通道；所有的卷积核卷积完后生成64个通道。

因此再下一次的卷积输入[Batch_size, 点数, 1, 64]为的卷积核为[1,1,64,64]，每个[1,1]的卷积核将64个通道的卷积结果求和并通过激活函数后输出，对应的输出为[Batch_size, 点数，64]。

因此使用大小为1的卷积核卷积，输出的维度受限于卷积核的个数，即通道数。

通过使用这种方法，大大的减少了参数的使用，例如将[3,2500]的点云升维为[64,2500]，对全连接网络（全连接网络对于超过二维的多维输入[B,N,C]，只是输入形式需要改变一下，通道在后，其他的和conv1d没区别。而使用这种方法仅用了3x64个参数（64个[1,3]卷积核），对于输出的某一个点N1的C1维度（B，C1,N1）来说，他是输入点N1对应C维特征的加权求和，某一点的输出特征只受到该点输入特征的影响，和其他点特征无关，这也是对应到MLP中共享参数的原因。

参考文献

参考文献1