@Unsupervised Feature Learning for RGB-D Based Object Recognition
RGB-D物体检测无监督特征学习
这篇论文主要提出层次匹配追踪(HMP), HMP 以无监督方式对原RGB-D数据使用稀疏编码学习层次特征表示。
模型
HMP使用彩色图像和深度图像。彩色图像对于外观细节很重要的对象实例识别非常有用,而RGB-D中的深度信息可以极大地提高对象类别识别及其鲁棒性。使用完整的RGB-D数据(灰度,RGB,深度以及表面法向通道),提取特征不仅从顶层特征层次,也从底层。
1.通过K-SVD字典学习
稀疏编码的重要思想是学习一个字典。在RGB-D帧中数据是像素块,例如,一个5×5RGB-D块字典将含有5×5×8尺寸的向量,8是由灰度强度,RGB,深度和表面法向值。灰度强度值由关联的RGB值计算,法线值由关联的深度值及其坐标计算。
K-SVD是一个生成K-Means流行字典学习方法。一个矩阵
Y
Y
Y的可观测数据,通过最小化重构误差(1)学习字典
D
=
[
d
1
,
.
.
.
,
d
m
,
.
.
.
,
d
M
]
D = [d_{1},...,d_{m},...,d_{M}]
D=[d1,...,dm,...,dM] 和相关的稀疏编码
X
=
[
x
1
,
.
.
.
,
x
n
,
.
.
.
,
x
N
]
X=[x_{1},...,x_{n},...,x_{N}]
X=[x1,...,xn,...,xN]。
m i n D , X ∣ ∣ Y − D X ∣ ∣ F 2 s . t . ∀ m , ∣ ∣ d m ∣ ∣ 2 = 1 a n d ∀ n , ∣ ∣ x n ∣ ∣ 0 ⩽ K \underset{D,X}{min}\left | \left | Y-DX \right | \right |_{F}^{2} s.t.\forall m,\left | \left | d_{m} \right | \right |_{2}=1 and \forall n ,\left | \left | x_{n} \right | \right |_{0}\leqslant K D,Xmin∣∣Y−DX∣∣F2s.t.∀m,∣∣dm∣∣2=1and∀n,∣∣xn∣∣0⩽K (1)
通过正交匹配追踪计算稀疏编码矩阵OMP算法
通过SVD分解更新字典
在层次匹配算法中,在两层中使用K-SVD来学习字典,第一层数据矩阵
Y
Y
Y包含从RGB-D图像中采样块,第二层从第一层中稀疏编码池化。
层次匹配追踪
学习字典
D
D
D,层次匹配算法通过应用正交匹配追踪编码器建立一个特征层次。这个编码器包含上三个模块:批正交追踪匹配,金字塔最大池化以及对比度标准化。
第一层:目标生成图像块的特征。每块的像素由稀疏编码计算像素和小领域表示。空间金字塔最大池化然后应用这些编码去生成块级特征。空间金字塔最大池化将一张图片块
P
P
P分成多级空间单元。每个空间单元
C
C
C的特征都是最大池化稀疏编码。
F
(
C
)
=
[
m
a
x
j
ϵ
C
∣
x
j
1
∣
,
.
.
.
,
m
a
x
j
ϵ
C
∣
x
j
m
∣
,
.
.
.
,
m
a
x
j
ϵ
C
∣
x
j
M
∣
]
F(C) = [\underset{j\epsilon C}{max}\left | x_{j1} \right |,...,\underset{j\epsilon C}{max}\left | x_{jm} \right |,...,\underset{j\epsilon C}{max}\left | x_{jM} \right |]
F(C)=[jϵCmax∣xj1∣,...,jϵCmax∣xjm∣,...,jϵCmax∣xjM∣]
F
P
=
[
F
(
C
1
P
)
,
.
.
.
,
F
(
C
s
P
)
,
.
.
.
,
F
(
C
S
P
)
]
F_{P}=[F(C_{1}^{P}),...,F(C_{s}^{P}),...,F(C_{S}^{P})]
FP=[F(C1P),...,F(CsP),...,F(CSP)]
第二层:目标生成整个图像或者物体的特征。HMP将稀疏比编码和最大池化应用到第一层生成的图像块特征
F
p
F_{p}
Fp。为了提取整张图片的特征,HMP首先通过第一层计算块特征,然后,仅在第一层,每个图像块的稀疏编码使用批正交追踪匹配计算,接着用空间最大池化。然而,在这一层中,我们对稀疏代码和在第一层中计算出的块级特征执行最大池化。
G
(
C
)
=
[
m
a
x
j
ϵ
C
∣
z
j
1
∣
,
.
.
.
,
m
a
x
j
ϵ
C
∣
z
j
U
∣
,
.
.
.
,
m
a
x
j
ϵ
C
∣
F
j
1
∣
,
.
.
.
,
m
a
x
j
ϵ
C
∣
F
j
V
∣
]
G(C) = [\underset{j\epsilon C}{max}\left | z_{j1} \right |,...,\underset{j\epsilon C}{max}\left | z_{jU} \right |,...,\underset{j\epsilon C}{max}\left | F_{j1} \right |,...,\underset{j\epsilon C}{max}\left | F_{jV} \right |]
G(C)=[jϵCmax∣zj1∣,...,jϵCmax∣zjU∣,...,jϵCmax∣Fj1∣,...,jϵCmax∣FjV∣]