ECCV 2022 | 浙大提出:基于骨骼点的少样本动作识别

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

作者Dropooict |  已授权转载(源:知乎)编辑:CVer

https://zhuanlan.zhihu.com/p/551589090

少样本动作识别在动作识别领域是一个大家期望达到的目标。近几年,围绕少样本动作识别这一主题出现了大量的文章。但目前的少样本动作识别工作大部分都是基于视频的,具有数据维度高,难以训练等等问题。我们组前段时间挖了个新坑,即从低维的骨骼点数据上进行动作少样本识别:“Learning Spatial-Preserved Skeleton Representations for Few-Shot Action Recognition(ECCV 2022)。

8c99886cbf23b11b97b2d51b0fbb8fad.png

https://zhoushengisnoob.github.io/papers/DASTM.pdf

代码(已开源): 

https://github.com/NingMa-AI/DASTM 

该工作在较少的训练数据下取得了良好的效果。比如在NTU-RGB+D 120上我们取了100类,每个类取30个样本,组成共3000个动作的数据集,就能达到70%以上的1-shot精度。接下来将为大家简要介绍我们的主要内容,更多细节还请移步原文。

框架

我们采用原型网络(Prototypical Networks)作为基础的少样本解决方案:

e0600c97dad903262db9f8d6c81291b5.png

cd9a7dc230e69d70da6796b9e0b905e2.png

的动作的原型。熟悉少样本学习的同学都知道,一旦使用了原型网络,那么后续就需要设计合适的距离度量函数 dis() 来实现具体的匹配方法,本工作也是围绕设计度量函数来展开。在基于骨骼点的动作识别中,单个动作是由多个连续的骨架图组成,如下所示:

919ecb894ced3398914578c75c585cf0.jpeg
单个动作的表示形式

对于骨架图序列,我们采用了空间匹配时序匹配结合的方式进行骨架序列度量,具体模型框架如下:

4812ffaae5d3b5ea739e633a50fa96bf.png

The Illustration that describes 1-shot action recognition with our framework.

该框架主要由两大部分组成:(1)空间对齐,包括基于秩最大化的解耦约束;基于注意力的空间激活模块;(2)时序对齐,直接基于DTW方法。

①基于秩最大化的解耦。我们发现采用ST-GCN编码骨骼点后,大部分骨骼点被过度平滑,造成分类性能下降。一个简单的图示如下:

f08ff31ec04cd32efc028d4b99b0539a.png

左半侧是直接度量编码后的骨架,由过度平滑导致了fuzzy matching问题。右侧是我们解耦后的骨架匹配过程,有效避免了骨骼点表示的过度平滑问题,实现可解释和更高精度的匹配过程。

为了实现解耦效果,一个可行方法是减少点之间表示的线性依赖,也就相当于增大骨架矩阵的秩。另一方面骨架矩阵的秩可以用核范数做近似约束,以下就是我们在论文中基于核范数的解耦目标函数:

dbe66aca64148a24499327d609f96561.jpeg

bd55e5b202167cbdcdd0767dc9bdda02.png

②基于注意力的空间激活。同时,骨架图之间的距离可以通过交叉注意力计算:

a29a39cd9b47fb4f1fc594a9eacdf25f.png 833317194c61e0b502f560d5ee775999.jpeg b363618b3009bae3ce89679c175cb86d.jpeg

③基于DTW的时序对齐是少样本动作识别中常规操作,采用动态规划思想寻找两个序列的最优匹配方案:

1b0afd5323a00c6662cf3a91ae9fd966.png

实验

我们以NTU-RGB+D 120 数据集为主,从中抽样100个类,每个类抽样30/60个样本,形成NTU-T或者NTU-S数据集。另外我们也采用了Kinetics数据集作为辅助。采用标准的N-way-k-shot的协议,下图展示了我们的方法和基线方法的效果(因为缺乏已有工作,所有的基线方法都是我们自己搭建的)。

d01063c66b19b9e0be7bb7b29b51454d.jpeg
DASTM* and DASTM** denote our ablation models with Rank Maximization and Spatial Activation, respectively.

另外,我们对每一帧上的节点相似度做了热力图可视化,结果显示我们的RankMax 方法有效的缓解了骨架表示的过渡平滑情况:

4051dcbc0c61a8fb6c69b283cbbe6de7.jpeg

总结与展望

我们为少样本动作识别任务提出了一种简单的骨架解耦表示和匹配解决方案。我们试图从解耦的角度捕获关键关节表示,从而为少样本模型带来更多的可解释性。由于减少了节点过渡平滑,在实验中我们也发现这种解耦也可带来性能上的提升。和基于视频的解决方案相比,我们首次探索了现代空间时序图卷积网络在小样本动作识别上的强大表示能力和其缺点。我们也希望这一方向能够获得更多关注,能够应用到例如医疗监护等实际的少样本场景中去。

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

 
 

后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

行为识别交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-行为识别 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如行为识别+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
  • 1
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值