CVPR 2023 | 基于动作元对比学习的无监督骨架动作识别

fc4f4d29e366942aba952a5169f6f69a.gif

©作者 | 林里浪

来源 | STRUCTatPKU

本期分享 STRUCT 小组 CVPR-2023 的 Highlight 文章。本项工作提出了一种依赖动作元 (Actionlet) 的对比学习方法 (ActCLR)。动作元被定义为人类骨架的运动关节集合。其有效地分解了运动区域与静态区域,以便更好地进行动作建模。通过与不含运动的静态基准对比,提取骨架数据中的运动区域,并将其作为动作元。然后,构建了一个运动适应性数据变换的方法,对运动区域和非运动区域进行不同的数据变换,以在保持运动信息的同时引入更多的多样性。同时,本工作提出了一种语义感知的特征池化方法,以对运动区域建立特征表示。

在 NTU RGB+D 和 PKUMMD 上的大量实验表明,所提出的方法实现了显著的动作识别性能提升。

f229ae5301bd66617ddac57d510f0b97.png

论文标题:

Actionlet-Dependent Contrastive Learning for Unsupervised Skeleton-Based Action Recognition

论文链接:

https://arxiv.org/abs/2303.10904

项目链接:

https://langlandslin.github.io/projects/ActCLR/

Video:

https://youtu.be/jwX0Zc8s10w

ee7a41a5d23ab9b76ab707b9e313a602.png

基于自监督的骨架数据动作识别

基于监督的骨架动作识别方法已经取得了令人印象深刻的性能。然而其成功高度依赖于大量的标记的训练数据,而这些数据的获得是很昂贵的。为了摆脱对完全监督的依赖,自监督学习已经被引入到基于骨架的动作识别。它采用了一个两阶段的范式,即首先应用自监督任务进行无监督预训练,然后采用下游任务进行微调。

根据学习范式,所有的方法可以分为两类:基于重建的和基于对比的学习。基于重构的方法通过预测空间-时间掩盖的骨架数据进行学习。基于对比学习的方法采用数据变换来产生正/负样本,通过拉近正例对的特征距离,推远负例对的特征距离来提高特征空间的一致性和均匀性。

0631fa26b6250f29af865e9ec7e6b69a.png

解耦运动和静态区域

这些对比学习工作对骨架序列的不同区域进行统一处理。然而,运动区域包含更丰富的动作信息,对动作建模的贡献更大。因此,直接将数据变换应用到所有区域是次优的。这可能会使运动相关的信息在数据变换中丢失。例如,如果掩码变换对举手动作中的手部关节进行了遮盖,举手动作的运动信息就会被完全破坏。这将引起假阳性问题,即由于信息的不一致而导致的语义上的不一致。因此,有必要对运动区域和静态区域进行区分设计。

如图 1 所示,本工作利用动作元定位运动区域,以指导对比学习。

ef0e48c95436b110cf84ece56bdc74b4.png

▲ 图1. 基于动作元的对比学习方法

e47667af27bda2476803e44b7d517273.png

算法框架

本工作首先无监督地获得动作元的定位。如图 2 所示,注意到对数据集中全部骨架数据取平均后得到的平均运动基本是静态的,所以将其作为一个静态基准。通过输入数据和这个静态基准做对比,求取其差异最大的区域就是动作元。

5e4bbb41dab658ef71e944d86bac7c54.png

▲ 图2. 基于静态基准的无监督动作元选取方法

如图 3 所示,对于对比学习,本工作采用双路结构,即在线流和离线流。上路是在线流,通过梯度更新。下路是离线流,由动量更新。本工作通过获得的动作元对输入数据进行运动适应性数据转换(MATS)来获得增强的数据。对于动作元的区域,我们采样剪切,旋转和翻转等保持运动语义的数据变换。对于非动作元区域,我们采用高斯噪声,裁剪粘贴等可能改变语义的数据变换。

在离线特征提取中,本工作采用语义感知的特征池化(SAFP)来获得更准确的特征。即仅对动作元区域求取特征。最后,利用相似性挖掘,我们增加了正例之间的相似性,减少了负例之间的相似性。

39edf4ae96703a0d6626ffbd9ba41584.png

▲ 图3. 基于动作元的对比学习框架图

726c4fb4877ff1675265f718b7572d6a.png

实验结果

本工作在 NTU RGB+D 上的无监督线性评估实验表明,所提出的方法实现了显著的动作识别性能提升。

8a14a933cf77de3529c10d1c59648740.png

▲ 表1. 线性评估结果

可以看到,在监督微调下,本工作也取得了更优的性能。

5832d9186c06b8e084d5caa5bf243ef4.png

▲ 表2. 监督微调结果

本工作在 NTU 数据集上预训练后迁移到 PKUMMD 数据集取得较好的动作识别和分割性能,这证明了本方法的泛化性能。

cd8d8dbae6831acaa28e666d3869b613.png

▲ 表3. 迁移学习结果

0031a9ad6a2a09f7443f5be595ade81b.png

▲ 表4. 动作分割结果

outside_default.png

参考文献

outside_default.png

[1] Lilang Lin, Sijie Song, Wenhan Yang, and Jiaying Liu. MS2L: Multi-task self-supervised learning for skeleton based action recognition. In ACM MM, 2020. 

[2] Sijie Song, Cuiling Lan, Junliang Xing, Wenjun Zeng, and Jiaying Liu. Spatio-temporal attention-based lstm networks for 3d action recognition and detection. IEEE TIP, 2018. 

[3] Jiaying Liu, Sijie Song, Chunhui Liu, Yanghao Li, and Yueyu Hu. A benchmark dataset and comparison study for multi-modal human action analytics. ACM TOMM, 2020.

更多阅读

395c6d8203c47c391fbe138ff90218f2.png

66fa59e6cb933112d8ebf0b37783d42d.png

9879844e0464ffa1881c819e7462b544.png

a4baf4155b58618831f9f65a146bf1a6.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

0482cc7a31edd9ac59d5757c8aa8b8a5.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

5acd973937fa3bf69e7ed2dea3269662.jpeg

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值