Adversarial Self-Supervised Learning for Semi-Supervised 3D Action Recognition

对抗自监督学习对于半监督3D动作识别

1.介绍

常规的3D动作识别很大程度多行依赖于大量的手工数据标识,自监督半监督学习(S4L),他将半监督学习算法与自监督结合。

SSL方法通过骨骼修补的方式学习无标签序列的时间信息,他把每一个样本都当做单一的个体,忽略带有相似动作类别的样本的共享信息。

此外,我们还发现,直接应用SSL会造成已学习表征的错位,如图1,这个错位将弱化模型对还未训练的样本的泛化能力。一个与我们相似的问题是无监督区域适应性(UDA),其匹配来自不同区域的特征分布。在UDA中,特征分布的差异性是由不同的域造成的,而我们的问题是由于SSL和有监督学习的已学习表征的错位导致的。在UAD的一项研究是基于对抗的自适应方法,这些方法寻求通过一个对抗性目标相对于一个域鉴别器的近似域差异距离最小化。因此受启发与在UDA中的对抗学习的对齐效果,我们把他应用到结合了自监督的方法的半监督学习算法中。
在这里插入图片描述

在该工作中,我们为半监督3D动作识别提出了对抗自监督学习网络(ASSL)。在图1中,我们的模型遗漏了:

1.自监督学习获取无标签骨骼的差异动作表征

2.对抗正则化允许有标签和无标签序列的特征分布对齐

更具体地说,对于每一个单独的无标签的样本,除了进行自修复约束外,我们还提出了一个新的观点,带有邻域的一致性正则化。邻域可以看作是具有高紧性和类一致性的小样本锚定聚类。带有邻域的一致性正则化能更进一步的揭示自监督动作表征的潜在类别概念。

2.方法

我们将训练集划分为两个部分,有标签训练集 X L X_L XL和无标签训练集 X U X_U XU,其中L是远小于U的。
在这里插入图片描述

如图2,我们首先应用骨骼修复来学习每一个无标签序列的时间序列。具体来说,编码器网络Enc从训练集 X U X_U XU中获得输入骨骼序列 x u x_u xu,并且生成时间特征向量 h u h_u hu。以已学习表征 h u h_u hu为条件,解码器Dec的目的是填充输入序列的masked区域。由于在动作分类(差异性)与骨骼修复(回归性)的之间的不同,我们使用了一个全连接层,例如一个线性层来桥接在两个task的特征空间之间的差距。线性层的输出被表示为 h u ˉ \bar{h_u} huˉ。然后,在这个特征空间,我们应用了最近K邻域算法从无标签数据集 X U X_U XU选择 K K K个最近邻域。 x u x_u xu的邻域集被表示为 Ω x u \Omega_{x_u} Ωxu。一个信息聚合模型被提出来生成局部中心向量。我们使用多层感知机来分配每个邻域样本的权重,权重 α k \alpha_k αk计算如下:
在这里插入图片描述

公式中 h u k ˉ \bar{h_u^k} hukˉ是邻居样本 x u k x_u^k xuk被translate的特征, M L P ( . ) MLP(.) MLP(.)表示多层感知机,通过被计算的权重 α \alpha α,局部类别中心 c u c_u cu能被邻域集 Ω x u \Omega_{x_u} Ωxu聚合如下:
在这里插入图片描述
考虑到邻域内的高紧性和类一致性,我们要求邻域内的样本达到与局部中心 c u c_u cu相似的预测。但是,对于一个样本 x u x_u xu,它的相邻样本要么与xu共享类标签(正),要么不共享类标签(负)。为了尽量减少负邻域的影响,我们引入了一个简单的选择准则:从标记训练集 X L X_L XL中为锚 x u x_u xu和邻居 x u k x_u^k xuk得到1个最近的标记邻域,如果锚 x u x_u xu和邻居 x u k x^k_u xuk的标记邻域具有相同的标签,则 x u k x^k_u xuk被视为正邻域。为样本 x u x_u xu选择的正邻居集表示为 Ω x u p \Omega_{x_u}^p Ωxup。最后,邻域内一致性正则化的损失定义如下:
在这里插入图片描述
f c ( . ) f_c(.) fc(.)是输入预测结果的分类器, K L ( . ) KL(.) KL(.)表示KL散度。
与未标记样本 x u x_u xu的一致性正则化一样,标记样本 x l x_l xl的相邻集也从未标记集 x u x_u xu中选择。表示为 Ω x l \Omega_{x_l} Ωxl。类似地,我们使用 x l x_l xl的特征 h l ˉ \bar{h_l} hlˉ作为锚来估计其局部中心表示 c l c_l cl,其邻域集 Ω x l \Omega{x_l} Ωxl作为等式1和2(如图2所示)。在假设锚与局部中心共享同一类语义的前提下,我们对中心 c l c_l cl使用交叉熵损失 C E ( . ) CE(.) CE(.)
在这里插入图片描述
式中 y l y_l yl x l x_l xl的类标签。
总的来说,未标记样本的优化目标可表述如下:
在这里插入图片描述
其中 L i n p L_inp Linp表示骨架修复损失,即修复序列和原始输入序列之间的 L 2 L_2 L2距离。最小化该优化目标 L U L_U LU,鼓励该模型增强自监督运动表示的底层类概念,并给出判别特征表示。

2.3对齐自监督和半监督表示的对抗学习
在这里插入图片描述

通过对现有半监督学习方法的训练,分别以监督学习和SSL学习为目标对标记样本和未标记样本进行训练。在这项工作中,等式5 用于未标记的样品。虽然我们提出的SSL技术对于半监督3D动作识别是非常有效的,但是我们发现在监督和SSL任务中学习到的表示是不一致的。如图3所示,利用SSL技术, S u p . + S e l Sup.+Sel Sup.+Sel的特性。呈现比 S u p Sup Sup更紧凑的分布。然而,与标记数据的类内紧致性(具有黑边界的正方形)相反,图3(b)中存在未标记数据的散射分布。因此,尽管这两个序列是从相同的数据分布中采样的,但是由于优化目标不同,它们的特征分布不一致。为了解决这个问题,我们提出了一种新的对抗性训练策略,将SSL方法和半监督3D动作识别相结合。特别地,训练鉴别器 D i s Dis Dis来区分未标记特征和标记特征。同时对模型进行训练,以混淆鉴别器 D i s Dis Dis。因此,对抗性损失的定义如下:
在这里插入图片描述
2.4模型结构和优化
该工作采纳了一个通用的结构。我们使用三个双向GRU层来编码输入骨骼序列。解码器由两个单向GRU层组成。在鉴别器和多层感知机中分别有4个和3个线性层。分类器是一个双层感知机。
在训练中,ASSL网络通过降低如下的损失来学习:
在这里插入图片描述
L L L_L LL是所有有标签样本 X L X_L XL的交叉熵损失, λ 1 \lambda_1 λ1 λ 1 \lambda_1 λ1是非负标量权值。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值