【阅读文献笔记】基于骨骼点的人体动作识别方法研究

提出了基于分割引导的深度高分辨率网络
针对人体姿态估计模型容易受到复杂背景影响的问题
提出了多尺度子图并行预测图卷积网络
针对动作识别模型中图卷积感受野受限和计算量大的问题

基于分割引导的深度高分辨率网络

主要思想

为扩展骨骼点标注的监督作用并降低背景区域对模型的干扰,提出了基于分割引导的深度高分辨率网络(Segmentation Guided High-Resolution Network, SG-HRNet。首先设计分割引导模块来引导模型关注骨骼点区域,从而降低背景区域对预测结果的影响。除此之外,使用骨骼点标注产生的真值分割图监督分割引导模块的输出。最后,使用动态加权算法进行多任务训练。得到最终模型。

骨骼点标注

热力图完成使人体姿态估计任务

骨骼点标注生成的真值分割图可以为模型提供空间焦点

图像中人体第𝑖个骨骼点真值热力图和真值分割图的计算公式所示:

分割引导模块

分割引导模块(Segmentation Guided Module, SGM)在真值分割图的监督下生成空间注意图。直观来说,图像中各区域对于任务的重要程度是不同的, 模型应重点关注任务相关区域,通过空间注意力机制找出图像的重要区域,可以 有效解决复杂背景干扰问题,从而提升模型最终效果。

𝑓𝑠 表示𝑠阶段高分辨率 支的输出卷积特征。首先,使用含有参数𝜃𝑠 阶段高分辨率分的卷积核大小为 3×3 的卷积层将特征图映射为更适合于生成分割图的中间特征图𝐹𝑠。然后,使用 1×1 的卷积层,将中间特征图的通道数进行收缩最后使用一个 Sigmoid 函数来生成预测分割图𝑉𝑠 分割图里的归一化值表示此位置属于骨骼点区域的概率,将其用于模型的高分辨率分支。
在三个阶段的骨骼点分割效果

基于动态加权的损失函数

模型的最终损失由两部分组成:分割损失与姿态估计损失

分割引导模块消融实验

基于多尺度子图的人体动作识别方法

主要思想

现有的基于 GCN 的模型大多选择串行堆叠更多的层来线性增加网络的感受野。但是叠加过多的层会增加模型的参数量甚至发生过拟合的问题。

基于以上分析,提出了基于多尺度子图并行预测图卷积网络的动作识别模型来解决上述问题。在该模型中,首先设计骨骼点采样模块,根据不同的融合策略产生三个不同尺度等级的骨架子图,骨架子图可以在不同尺度的空间划分中提供更大的感受野,有助于全局语义信息和局部运动信息的提取。在此基础上,构造三种图卷积块:局部图卷积块、基础图卷积块和全局图卷积块,提取不同尺度骨架子图的特征信息。最后,使用运动注意力模块在特征级别对运动信息进行建模,可以有效降低模型的计算成本。

多级子图采样与融合模块

模型使用多级子图采样模块来实现对骨架图𝐺𝑛𝑜𝑟𝑚𝑎𝑙的高效归并操作从而产生两个尺度等级子图𝐺𝑙𝑜𝑐𝑎𝑙和𝐺𝑔𝑙𝑜𝑏𝑎𝑙

具体来说,多级子图采样模块首先根据人体自然骨骼关节的语义属性和渐进原则,将人体骨骼分割成若干个部件。然后,以权重和的方式合并骨架图中同一部件中的顶点

部件𝒦中顶点合并操作

各尺度骨架子图所提取的特征融合操作

图卷积模块

多尺度图卷积(Multi-Scale Graph Convolutions , MS-GCN)结构图:

MS-G3D 采用空间和时间上的统一图形操作来同时捕获时间与空间的变化模式。

局部图卷积块重点关注手部骨骼点,基础图卷积块提取对适用于所有动作的特征信息全局图卷积块提取人体各部分相互协调运动的全局特征信息。

最后,所有图卷积块头部添加特征级别运动注意力模块,建模特征级别的运动信息。

特征级别运动注意力模块

运动注意力模块(Motion Attention, M-Attention)旨在建模特征级别的运动信息。为此,M-Attention 首先生成运动掩码𝑀 然后将此与输入特征𝑋 进行骨骼点维度的哈达玛乘积运算。

消融实验

MS-G3D NTU-RGB+D 数据集 X-Sub 6 种较难识别的动作进行了对比实验

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值