GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition CVPR2018
和MVCNN一样,基于多视图对三维物体进行识别分类的网络结构。GVCNN的核心思路是:对不同视角的特征进行区分度打分,落在同一得分区间的划分到同一组,同时给每组生成一个权重,用于加权聚合得到最终特征。分值用sigmoid限制在0~1范围内,然后事先将(0,1)区间划分成M个组。
感觉想法可以,但很难学习到分组信息。
网络整体结构:
- FCN提取原始的视角特征 raw view descriptors;
- CNN提取最终的视角特征 final view descriptors;
- 用raw视角特征作为Grouping Module的输入,计算分组结果和每组权重;
- 根据分组结果对final视角特征进行分组,并进行view pooling得到group descriptors;
- 用每组权重对group descriptors进行加权融合,得到最终的shape descriptor;
- 全连接分类。
Grouping Module
- 输入为N个原始视角特征Xi;
- 用共享的FC对输入特征进行处理,输出特征为Oi;
- 计算每个视角的得分si = sigmoid(log(abs(Oi)));
- 设分为M个组,计算第j个组的权重:;