Adversarial Self-Supervised Learning for Semi-Supervised 3D Action Recognition
Abstract
自监督学习(SSL)已被证明在图像域中从未标记数据中学习表示非常有效。目前,针对三维动作识别的有效自监督方法还不多见,直接将SSL应用于半监督学习,存在从SSL学习到的表征与有监督学习任务不一致的问题。为解决这个问题。作者提出对抗自监督学习(ASSL),它通过领域关系提取和对抗学习把SSL和半监督方法结合。
Introduction
最近,SSL被提出通过骨骼图用来学习未标签序列的时间信息,但SSL把每一个样本都视作独立个体,因此忽视了样本中相似动作所共有的信息。
直接将SSL应用于半监督学习,存在自监督学习任务和有监督学习任务学习结果不一致的问题。受unsupervised domain adaptation (UDA)中对抗学习的启发,把adversarial learning与self-supervision结合进semi-supervised learning中。
main contributions:
1.我们为半监督3D动作识别提出了一个对抗自监督学习(ASSL)框架,它通过对抗学习和领域关系探索把SSL和半监督方法紧密的结合。
2.我们提出了一个新的自监督方案,i.e.,邻居一致性。通过研究领域的数据联系,模型能学习到不同的动作表征。
3.我们确定了直接将SSL应用于半监督学习,存在有标签样本与无标签样本学习结果不一致的问题。一个新颖的对抗正则化被提出将SSL与半监督算法结合,以对齐两者的特征分布,这能进一步的提升泛化能力。
problem frmulation
使用很少的标签数据在半监督3D动作识别。首先,
X
X
X代表训练集。训练样本
x
i
∈
X
x_i\in X
xi∈X是带有T帧的骨骼序列,与有监督3D动作识别不同,训练集被分为两部分:有标签集
X
L
X_L
XL,无标签集
X
U
X_U
XU。受
S
4
L
S^4L
S4L启发,我们提出了对抗自监督学习架构来学习两个训练集的不同动作表征。
neighborhood consistency
半监督3D动作识别的目的是学习有区别的动作表征从大量的无标签序列。然而,很难获得简洁的3D人类姿势。为解决这个问题,我们提出了一个高效的SSL策略,领域一致性,一吃增强潜在的类别语义的动作表征。
如图,我们首先应用skeleton inpainting学习无标签序列的时间信息。具体来说,编码器网络Encr把输入骨骼序列
x
u
x_u
xu生成为时间特征
h
u
h_u
hu。一个解码器网络Dec目标是填充输入序列的masked region,为了区分在动作分类(区别)和骨骼修补(回归),我们使用了一个翻译层,例如,一个线性层搭建两者特征空间的关系。线性层的样本
x
u
x_u
xu的输出表示为
h
‾
u
\overline{h}_u
hu。在这个特征空间,我们应用K-nearest neighborFon从未标签训练集
X
U
X_U
XU来选择K最近邻居。
x
u
x_u
xu的邻居集被表示为
Ω
x
\Omega _x
Ωx。一个信息聚合模型被提出老生成局部中心向量。我们使用多重感知机来分配每一个邻居样本的权值,评估他们的相似性,权值
α
k
\alpha _k
αk计算如下:
上式
h
‾
u
k
\overline{h}^k_u
huk是邻居样本
x
u
k
x_u^k
xuk被翻译的特征,
M
L
P
(
)
MLP()
MLP()表示多重感知机,通过被计算的权重{
α
1
,
.
.
.
,
α
K
\alpha_1,...,\alpha_K
α1,...,αK},局部类中心
c
u
c_u
cu被聚类为: