摘要
本文主要围绕2D,3D卷积网络讨论一下Spherical Convolution(球核卷积),并展现其在3D模型特征提取上的优势。
2D Convolution
我们知道,常规做convolution都是以一个矩形作为卷积核,通过输入输出通道数来指定核数,超参数直接指定核大小
这是最常用的卷积,但是图片是一个regular的input,而3D数据是irregular的,如果直接将2D卷积使用在3D的input中,会使得模型泛化能力较差,即使当今很多模型,如DGCNN,有一些spatial transform,或者说直接抛弃卷积,使用attention代替,但是CNN提取cv特征的能力是毋庸置疑的,于是,文章便提出了一种在3D数据利用Spherical Kernel进行卷积的网络。
3D Convolution
(不同颜色表示不同卷积核,图一表示每两帧使用同一卷积核,图二表示每帧使用两个卷积核)
上面讲到,对于image使用的是2D Convolution,但是对于一个连续的视频,我们不希望只是把每一帧当作一个image来2D Convolution,因