paper总结(8)Neighbor-guided Consistent and Contrastive Learning for Semi-supervised Action Recognition

论文链接:

代码链接:

摘要

半监督学习在图像分类领域已经得到了很好的应用,但在基于视频的动作识别领域仍有待探索。FixMatch是一种最先进的半监督图像分类方法,但由于它只使用单一的RGB模式,包含的运动信息不足,因此在直接传输到视频领域时效果不佳。此外,它仅利用高置信度伪标签来探索强增强和弱增强样本之间的一致性,导致监督信号有限,训练时间长,特征识别力不足。为了解决上述问题,作者提出了邻居引导的一致性和对比学习(NCCL),它以RGB和时间梯度(TG)为输入,基于师生框架。由于标记样本的局限性,首先将邻居信息作为自监督信号来探索一致性,弥补了FixMatch缺乏监督信号和训练时间长的缺点。为了学习更多有区别的特征表示,进一步提出了一个新的邻居引导的类别级对比学习术语,以最小化类内距离和扩大类间距离。

为什么基于视频的动作识别任务仍有很大的改进空间,由于以下两个原因,它比图像分类任务更具挑战性。一方面,视频既包含外观信息,又包含动态运动信息。对于特定的动作视频,可能包含较大的运动方差,增加了分类的难度。另一方面,由于它由许多帧组成,注释更加耗时和昂贵。

作者提出了邻居引导的一致性和对比学习(NCCL)。为了更好地捕捉视频中的运动信息,避免使用需要大量计算和存储空间的光流,结合了RGB和TG。RGB更关注外观信息,而TG更关注运动信息。NCCL基于师生模型,其中教师模型使用了学生模型的指数移动平均(EMA)权重。EMA策略可以为样本提供额外的增广性,提高模型的鲁棒性。教师模型利用RGB和TG之间的互补信息生成高置信度伪标签,指导学生模型的学习。伪标签学习遵循FixMatch,将预测概率最大的类别视为伪标签,并要求最大概率必须超过高信度信号的阈值。

为了获得更多的高自信信号用于监督,作者提出了一种简单的非参数策略,即邻居引导一致学习(NCS)对不能生成高置信度伪标签的废弃样本进行再利用,通过向它们的邻居求助来生成高置信度的引导信息,我们称之为邻居标签。对于每个实例,教师模型分别从RGB和TG模态中找到K个最近邻,并将它们的交集作为选择近邻,然后将这些高置信度选择近邻的预测级中心作为近邻标签吸引原始样本。这样可以充分利用小批量中的每个样本,提高训练效率。此外,特征的可鉴别性在很大程度上影响了生成的伪标签和邻居标签的质量。对于更具鉴别性的特征学习,提出了邻居引导的对比学习(NCT)将样本所选择的邻居作为样本的正样本,它们应该属于同一类别,在特征层面上使它们之间的距离更近,而样本与其他样本之间的距离更远。通过邻居引导的对比学习,鼓励模型学习更多的鉴别特征,这进一步促进了更高质量的伪标签和邻居标签的生成。

论文贡献:

针对半监督视频动作识别,提出了一种新颖的邻居引导一致对比学习方法,该方法可以很好地解决FixMatch算法的局限性,师生框架使模型更具鲁棒性。

针对监督信号和特征识别能力不足的问题,提出了一种构建高自信近邻的新策略,并在此基础上进一步提出了预测级一致学习和特征级对比学习,分别为网络训练提供更多监督信号和学习识别特征。

方法在几个基于视频的动作识别数据集上优于现有的半监督分类方法,参数更少,计算成本更低。

方法:

总体框架如图所示。NCCL基于师生框架,即教师模型生成监督信号来指导学生模型的学习。为了获得更多的运动信息,引入了时间梯度(TG)模态。TG捕捉了连续两帧视频的差异,重点关注运动信息,可以很好地弥补RGB中运动信息的不足。与光流不同,TG不需要大量的计算和存储资源,只需要在模型获取RGB帧时顺便计算,计算开销可以忽略不计。

在训练的早期阶段,只使用带标签的视频样本来训练模型,其权重由教师模型和学生模型共享,这可以看作是一个热身操作。对于每个标记的视频样本Vi,对其RGB帧和TG帧进行弱时空增强α(·)(即使用更多的噪声较小的帧来表示视频样本),然后通过学生编码器f(·)和学生分类器c(·)来获得类预测。最后,计算类预测与对应标签yi之间的交叉熵,如下所示:

对于未标记的视频样本,有两种方案来生成监督信号。第一个是伪标签方案,如FixMatch。如模型图所示,为了更好地生成高置信度伪标签,对U(RGB i)和U( TG i)进行弱时空增强α(·)。增强后的数据通过教师模型得到预测结果。如果两种模态的平均预测的最大概率都高于阈值τ,则使用最大概率对应的类别作为Ui的伪标签yp i:

然后使用教师网络计算的上述伪标签来指导学生模型的训练,伪标签学习的目标函数如下:

对于第二种监督信号构造方案,提出了一种简单而有效的高置信度邻居选择策略,并在此基础上进一步提出了预测级邻居引导一致学习(NCS)和特征级邻域引导的对比学习(NCT),分别学习更稳健的预测和更具区分性的特征表示。

基于具有更新参数θx s的学生模型,采用指数移动平均策略来学习教师模型的参数θx t:

EMA策略为样本提供额外的扩充,并使教师模型记住以前学习到的知识,从而提高整个模型的性能和稳健性。

总之,NCCL结合了RGB和TG通道以及它们的邻居信息来生成可靠的信号,从而指导师生模型的学习。对于带标签的样本,按照监督学习的一般做法,最小化样本及其真实标签之间的交叉熵。对于未标记的样本,首先根据它们是否可以超过阈值将其分为两个集合。如果超过,遵循FixMatch来最小化样本和对应的伪标签的交叉熵。否则,利用邻居指导的一致学习来最大化教师和学生模型之间的一致性。对于所有未标记的样本,还执行邻居引导的对比学习,以增强特征可区分性。

邻域引导一致学习(NCS):对于不能生成高置信度伪标签的丢弃样本,向他们的邻居寻求帮助,这样可以避免引入他们自己生成的低置信度信息。教师模型利用未标记样本的邻域来生成高度可信的监督信号,该信号称之为邻域标签,然后最大化邻域标签与学生模型预测值之间的一致性。为了找到置信度较高的邻域,如下图所示,将两个不同模态的K个最近邻域的交集作为每个样本的选择邻域,达到滤除噪声邻域的目的。相比之下,如果只直接使用一种模式的K近邻,模型会过于关注外观或边界运动信息,并且所选择的近邻的正确性不理想。

具体地,对U RGB i和U TG i进行弱时空增强,并通过教师编码器f(·)得到特征h RGB i和H TG i,然后分别在RGB特征记忆队列和TG特征记忆队列中找到h RGB i和H T G i的k个最近邻P RGB i和P T G i:

在方法中出现的队列中存储的所有特征都来自教师模型。N为队列长度,s(·,·)计算两个向量之间的相似度,这里采用余弦相似度。TOPK(·)表示排序相似的TOP-K指数。P RGB i和P T G i的交集PI将作为样本Ui的选定邻域来指示学生模型,即,

在计算邻居之前,将把hRGB i和HTG i分别推入RGB和TG特征内存队列,因此至少可以从交集中找到一个选定的邻居。对于不能生成伪标签的样本,利用教师模型构造邻域标签,从而指导学生模型的学习。建立预测记忆队列来存储历史教师分类器输出ˆQj,其是历史未标记样本的平均预测Q的副本。然后,从预测记忆队列中找到与所选择的邻居PI相对应的预测,并对它们进行平均,以获得样本Ui的邻居标签Yn i:

其中|·|是集合的基数,T是锐化的温度系数,以鼓励模型进行低熵预测,如UDA中所介绍的。Yn i包含邻居的集成信息,可以作为邻居中心来指导样本Ui逼近它。对于学生模型的更新,通过最小化教师模型和学生模型的类预测产生的邻居标签的Kullback-Leibler(KL)发散来最大化教师模型和学生模型的预测水平的一致性。最终的NCS损失如下:

为了确保模型学习对生成的伪标签和邻居标签质量有显著影响的区分特征,提出了一种新的特征级邻居引导对比学习(NCT)策略。类似于MoCoV2,将特征输入到投影仪中,并根据投影的特征计算对比损失。基于样本及其邻居通常属于同一类别的直觉,我们将每个样本的选定邻居视为其正样本,将队列中的其他样本视为负样本,如上图所示。通过扩展正样本,我们将MoCoV2中的实例级对比学习提升为类别级对比学习,从而可以产生更多的区分性特征。此外,MoCoV2只考虑了一个通道,而我们的方法对于RGB和TG通道同时具有通道内和通道间的对比学习。

更具体地说,对于每个未标记的样本,首先计算来自学生模型的投影特征zRGB i=g◦f(A(U RGB I))和zTGi=g◦f(A(U TGi))。对于zRGB I,正样本不仅包括RGB投影记忆队列中的交叉点PI对应的邻居,还包括TG投影记忆队列中的交叉点PI对应的邻居。RGB和TG投影队列中的其他非相邻样本被视为负样本。ZT G I也采用了同样的方式。则第i个样本的单个通道的NCT损耗为:

D(u,v)=exp(UT v/T)度量矢量u和v之间的相似性。T是温度系数。小批量所有样品的最终NCT损失汇总如下:

通过对方程中的监督学习损失LS求和。伪标签学习损失Lp L。NCS损失LN CS等式和等式中NCT损失LN CT。我们可以得到以下总体培训目标:

伪代码如下:

实验结果如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值