Explain What You See: Open-Ended Segmentation and Recognition of Occluded 3D Objects
Abstract
Motivation: Local-HDP对于高度遮挡的物体检测的鲁棒性较差,提出一种新的3D物体的分割方法,将次方法与在线增量学习相结合,从而处理高度遮挡的物体。
Contribution:
- 基于Local-HDP提出了一种新型的3D物体的分割方法,无需事先构造视觉单词的字典。
- 基于ABL提出了一种开放式3D目标识别方法,该技术可以处理高度遮挡的物体。
Framework: 利用分割结果生成的标签辅助物体的识别
Method
Local to Global 3D shape Descriptor
输入为BoW层构建的由局部到全局和全局到局部的描述特征,无需再构造字典,每个bin的直方图代表了一个视觉单词。
Global to Local 3D Object Descriptor
利用GOOD论文中的PCA方法用于获得每个点的三个特征向量,用于表示点的位置信息。对于一个投影点
p
=
(
α
,
β
)
p=(α,β)
p=(α,β), 都可以得到:
r
(
p
^
)
=
[
α
+
l
2
l
+
ϵ
2
]
,
c
(
p
^
)
=
[
β
+
l
2
l
+
ϵ
2
]
r(\hat{p}) = [\frac{\alpha+\frac{l}{2}}{\frac{l+\epsilon}{2}}]\quad,c(\hat{p}) = [\frac{\beta+\frac{l}{2}}{\frac{l+\epsilon}{2}}]
r(p^)=[2l+ϵα+2l],c(p^)=[2l+ϵβ+2l]
其中
l
l
l是支持长度,
n
n
n表示bin的个数,
ϵ
\epsilon
ϵ表示修正量。
对于一个i行j列的bin可以被描述为:
b
i
n
r
,
c
i
,
j
=
∑
p
∈
(
r
(
i
)
,
c
(
j
)
)
(
(
l
−
d
)
2
l
)
2
bin^{i,j}_{r,c} = \sum_{p\in(r(i),c(j))}{(\frac{(l-d)^2}{l})^2}
binr,ci,j=p∈(r(i),c(j))∑(l(l−d)2)2
其中,d表示的是
d
=
∣
∣
p
−
p
∗
∣
∣
d=||p-p^*||
d=∣∣p−p∗∣∣欧氏距离,
p
∗
p^*
p∗表示的是keypoint这样就获得了三个向量,用于描述每个点对应的bin,一级bin的行列数。将每个点转化到bin上。
3D Object Segmentation using Local-HDP
对于获得的每个bins{ s 0 , s 1 , . . . s_0,s_1,... s0,s1,...}利用Local-HDP(见另一篇博客)实现局部模型的构建(topic)。
Local Online Variational Inference
两阶段的HDP由迪利克雷过程共享一个基分布
G
0
G_0
G0构成:
G
0
∼
D
P
(
γ
H
)
,
G
j
∼
D
P
(
α
0
G
0
)
G_0\sim DP(\gamma H)\quad ,G_j \sim DP(\alpha_0G_0)
G0∼DP(γH),Gj∼DP(α0G0)
G
j
G_j
Gj代表一个文档的DP(类似于具体物体的视觉单词的离散分布?),H表示话题上的单词分布。第j个物体的视觉代词通过topic生成。
这部分的处理于Local-HDP中的过程一致。
Experiment
和深度学习方法比较:
遮挡数据集的实验结果:
遮挡数据集只用于测试,不用于训练。
可以看出在遮挡数据集上有着显著的性能。