对抗自监督学习对于半监督3D动作识别
1.介绍
常规的3D动作识别很大程度多行依赖于大量的手工数据标识,自监督半监督学习(S4L),他将半监督学习算法与自监督结合。
SSL方法通过骨骼修补的方式学习无标签序列的时间信息,他把每一个样本都当做单一的个体,忽略带有相似动作类别的样本的共享信息。
此外,我们还发现,直接应用SSL会造成已学习表征的错位,如图1,这个错位将弱化模型对还未训练的样本的泛化能力。一个与我们相似的问题是无监督区域适应性(UDA),其匹配来自不同区域的特征分布。在UDA中,特征分布的差异性是由不同的域造成的,而我们的问题是由于SSL和有监督学习的已学习表征的错位导致的。在UAD的一项研究是基于对抗的自适应方法,这些方法寻求通过一个对抗性目标相对于一个域鉴别器的近似域差异距离最小化。因此受启发与在UDA中的对抗学习的对齐效果,我们把他应用到结合了自监督的方法的半监督学习算法中。
在该工作中,我们为半监督3D动作识别提出了对抗自监督学习网络(ASSL)。在图1中,我们的模型遗漏了:
1.自监督学习获取无标签骨骼的差异动作表征
2.对抗正则化允许有标签和无标签序列的特征分布对齐
更具体地说,对于每一个单独的无标签的样本,除了进行自修复约束外,我们还提出了一个新的观点,带有邻域的一致性正则化。邻域可以看作是具有高紧性和类一致性的小样本锚定聚类。带有邻域的一致性正则化能更进一步的揭示自监督动作表征的潜在类别概念。
2.方法
我们将训练集划分为两个部分,有标签训练集
X
L
X_L
XL和无标签训练集
X
U
X_U
XU,其中L是远小于U的。
如图2,我们首先应用骨骼修复来学习每一个无标签序列的时间序列。具体来说,编码器网络Enc从训练集
X
U
X_U
XU中获得输入骨骼序列
x
u
x_u
xu,并且生成时间特征向量
h
u
h_u
hu。以已学习表征
h
u
h_u
hu为条件,解码器Dec的目的是填充输入序列的masked区域。由于在动作分类(差异性)与骨骼修复(回归性)的之间的不同,我们使用了一个全连接层,例如一个线性层来桥接在两个task的特征空间之间的差距。线性层的输出被表示为
h
u
ˉ
\bar{h_u}
huˉ。然后,在这个特征空间,我们应用了最近K邻域算法从无标签数据集
X
U
X_U
XU选择
K
K
K个最近邻域。
x
u
x_u
xu的邻域集被表示为
Ω
x
u
\Omega_{x_u}
Ωxu。一个信息聚合模型被提出来生成局部中心向量。我们使用多层感知机来分配每个邻域样本的权重,权重
α
k
\alpha_k
αk计算如下:
公式中
h
u
k
ˉ
\bar{h_u^k}
hukˉ是邻居样本
x
u
k
x_u^k
xuk被translate的特征,
M
L
P
(
.
)
MLP(.)
MLP(.)表示多层感知机,通过被计算的权重
α
\alpha
α,局部类别中心
c
u
c_u
cu能被邻域集
Ω
x
u
\Omega_{x_u}
Ωxu聚合如下:
考虑到邻域内的高紧性和类一致性,我们要求邻域内的样本达到与局部中心
c
u
c_u
cu相似的预测。但是,对于一个样本
x
u
x_u
xu,它的相邻样本要么与xu共享类标签(正),要么不共享类标签(负)。为了尽量减少负邻域的影响,我们引入了一个简单的选择准则:从标记训练集
X
L
X_L
XL中为锚
x
u
x_u
xu和邻居
x
u
k
x_u^k
xuk得到1个最近的标记邻域,如果锚
x
u
x_u
xu和邻居
x
u
k
x^k_u
xuk的标记邻域具有相同的标签,则
x
u
k
x^k_u
xuk被视为正邻域。为样本
x
u
x_u
xu选择的正邻居集表示为
Ω
x
u
p
\Omega_{x_u}^p
Ωxup。最后,邻域内一致性正则化的损失定义如下:
f
c
(
.
)
f_c(.)
fc(.)是输入预测结果的分类器,
K
L
(
.
)
KL(.)
KL(.)表示KL散度。
与未标记样本
x
u
x_u
xu的一致性正则化一样,标记样本
x
l
x_l
xl的相邻集也从未标记集
x
u
x_u
xu中选择。表示为
Ω
x
l
\Omega_{x_l}
Ωxl。类似地,我们使用
x
l
x_l
xl的特征
h
l
ˉ
\bar{h_l}
hlˉ作为锚来估计其局部中心表示
c
l
c_l
cl,其邻域集
Ω
x
l
\Omega{x_l}
Ωxl作为等式1和2(如图2所示)。在假设锚与局部中心共享同一类语义的前提下,我们对中心
c
l
c_l
cl使用交叉熵损失
C
E
(
.
)
CE(.)
CE(.):
式中
y
l
y_l
yl是
x
l
x_l
xl的类标签。
总的来说,未标记样本的优化目标可表述如下:
其中
L
i
n
p
L_inp
Linp表示骨架修复损失,即修复序列和原始输入序列之间的
L
2
L_2
L2距离。最小化该优化目标
L
U
L_U
LU,鼓励该模型增强自监督运动表示的底层类概念,并给出判别特征表示。
2.3对齐自监督和半监督表示的对抗学习
通过对现有半监督学习方法的训练,分别以监督学习和SSL学习为目标对标记样本和未标记样本进行训练。在这项工作中,等式5 用于未标记的样品。虽然我们提出的SSL技术对于半监督3D动作识别是非常有效的,但是我们发现在监督和SSL任务中学习到的表示是不一致的。如图3所示,利用SSL技术,
S
u
p
.
+
S
e
l
Sup.+Sel
Sup.+Sel的特性。呈现比
S
u
p
Sup
Sup更紧凑的分布。然而,与标记数据的类内紧致性(具有黑边界的正方形)相反,图3(b)中存在未标记数据的散射分布。因此,尽管这两个序列是从相同的数据分布中采样的,但是由于优化目标不同,它们的特征分布不一致。为了解决这个问题,我们提出了一种新的对抗性训练策略,将SSL方法和半监督3D动作识别相结合。特别地,训练鉴别器
D
i
s
Dis
Dis来区分未标记特征和标记特征。同时对模型进行训练,以混淆鉴别器
D
i
s
Dis
Dis。因此,对抗性损失的定义如下:
2.4模型结构和优化
该工作采纳了一个通用的结构。我们使用三个双向GRU层来编码输入骨骼序列。解码器由两个单向GRU层组成。在鉴别器和多层感知机中分别有4个和3个线性层。分类器是一个双层感知机。
在训练中,ASSL网络通过降低如下的损失来学习:
L
L
L_L
LL是所有有标签样本
X
L
X_L
XL的交叉熵损失,
λ
1
\lambda_1
λ1和
λ
1
\lambda_1
λ1是非负标量权值。