【点云语义分割】Multi-Path Region Mining ForWeakly Supervised 3D Semantic Segmentation on Point Clouds(CVPR 2020)
论文链接
代码链接: 暂无
Motivation
本文提出了一种弱监督的方法,利用3d点云的弱语义去预测point-level的结果。场景级的label直接用在弱监督分割上有几个挑战:第一是3d数据是从rgbd中建模的,因此,单个的标签用对大场景时,非常粗糙;第二是室内的场景下,墙和地板这些类别出现频率非常高,但是这样的类别又没有携带有区别力的特征,因此会造成数据不均衡,导致对局部线索的分类造成困难。文章提出了sub cloud-level annotation,在一个点云场景中按照一定的规则找出若干子点云,这样可以解决数据不均衡的问题,相当于给除了地板和墙之外别的种类的点云增加了权重。
概念
- scene-level annotation:标注每个场景出现的类别。
- sub cloud-level annotation:标注每个子点云中出现的类别。
- 弱监督学习(weakly supervised learning):已知数据和其一一对应的弱标签,训练一个智能算法,将输入数据映射到一组更强的标签的过程。标签的强弱指的是标签蕴含的信息量的多少,比如相对于分割的标签来说,分类的标签就是弱标签。如果下图,图上有两把椅子,算法需要把椅子在哪里,椅子和背景的分界在哪里找出来,那么这就是一个已知弱标签,去学习强标签的弱监督学习问题。
Method
Baseline Method: PCAM
文章运用CAM的概念,用KPConv和ResNet模块改造PCAM,去挖掘点云中的位置信息。
f
c
a
m
(
p
)
f_{c a m}(p)
fcam(p)是点
p
p
p在PCAM全局平局池化层之前的特征向量。对于类别c,点
p
p
p的mask
M
c
(
p
)
M_{c}(p)
Mc(p)计算如下:
M
c
(
p
)
=
w
c
⊤
⋅
f
c
a
m
(
p
)
⋅
y
c
M_{c}(p)=\mathbf{w}_{c}^{\top} \cdot f_{c a m}(p) \cdot \mathbf{y}_{c}
Mc(p)=wc⊤⋅fcam(p)⋅yc
w
c
⊤
\mathbf{w}_{c}^{\top}
wc⊤是类别c的份类权重,
y
c
\mathbf{y}_{c}
yc是{0,1}即子点云中类别c的one-hot ground truth label。
Multi-Path Region Mining
由于PCAM只能找到物体discriminative region的特征,这对于分割任务来说是不够的,因此作者提出了多重attention机制来挖掘更多的discriminative region。每个path经过一个1*1的卷积层分类后得到各个path的PCAM,每个PCAM全局平均池化后用弱监督的label计算sigmoid交叉熵损失进行反向优化,同时用element-wise maximum 将每个path的PCAM值merge起来后上采
- Spatial Attention Module
点i对点j的影响,通过Spatial Attention Module给每个点的local特征增加了global context信息。 - Channel Attention Module
channel i对channel j的影响。给每个点的特征增加了channel内在关系的信息。 - Point-wise Attention Module
Point-wise Attention Module和Spatial Attention Module的区别在于Point-wise Attention Module最后没有加权和操作而是直接将A和1*1卷积后的F concat了起来。
Learning a Semantic Segmentation Network
通过上面的MPRM得到pseudo label后用denseCRF进行refine,最后由KPConv U-Net和refine后的pseudo label训练得到最终的语义分割结果。
实验experiments
- Scene-level Versus Subcloud-level Labels
对比了scene-level labels和subcloud-level label。列出了每个类在两个层次的label中出现的频率,可以看到,subcloud-level label极大的限制了floor,并且将wall降低了20%。因此 subcloud-level label 一定程度上解决了数据不均衡的问题,并且让网络有能力关注在小的物体上。 - Pseudo Label Evaluation
详细的类(用加标签)在训练集上的分割效果。MPRM更好的分割了小物体。 - Ablation Study
四路attention的实验结果。max fusion结果更好。但是感觉几个attention path之间的相互作用没有分析明确,用这么多路的atention,一定会导致特征冗余。 - Segmentation Results
跟有监督的几个sota打平。
相关阅读
[15] Shi-Min Hu, Jun-Xiong Cai, and Yu-Kun Lai. Semantic labeling and instance segmentation of 3d point clouds using patch context analysis and multiscale processing. IEEE transactions on visualization and computer graphics, 2018.
[43] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2881–2890, 2017.
[45] Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, and Antonio Torralba. Learning deep features for discriminative localization. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2921–2929, 2016.