存在的问题
随着人口老龄化问题日益严重, 人们对家庭环境中老年人的安全问题越来越重视. 通过对老年人的日常行为视频的调研发现, 老年人的日常行为语义具有非常明显的细粒度特性, 如“喝水”与“吃药”两种行为的语义高度相似, 且只有少量的关键帧能准确体现出其类别语义.
创新点
为了有效解决老年人行为识别问题, 提出一种新的多模态多粒度图卷积网络 , 通过利用图卷积网络分别从人体骨骼点 (“点”) 和人体骨架(“线”)、关键帧 (“面”) 和视频提名段(“段”) 两种模态对老年人行为进行建模, 捕捉“点-线-面-段”这 4 种颗粒度对象下的语义信息。
细粒度划分
本文引入了多模态学习, 并在此基础上对 RGB 和骨骼序列进行了进一步地细粒度划分。
模型架构
本文提出了一种新的多模态多粒度图卷积神经网络 (MM-GCN), 在多模态融合的双流基础上将进一步细化成为四流图卷积学习框架。
基于骨骼模态的图卷积网络 (S-GTCNs)
S-GTCNs 模块通过对大范围的空间和时间信息进行聚合从而学习到基于骨骼数据的行为特征表示。
基于 RGB 模态的图卷积网络模块 (R-GCNs)
类似于 S-GTCNs 模块的处理方式, 本文对 RGB 采用了两种处理策略, 第 1 种是从视频中抽取少量关键帧,第 2 种则是提取视频的提名 (proposal) 作为输入.
实验部分
数据集
ETRI-Activity3D 该数据集由 RGB 、深度图和骨骼序列3 个同步数据模态组成,总共有 112620 组数据, 包括 55 个行为类别。
NTU RGB+D 行为识别数据集由 56880 个样本组成, 包含 60 个类别, 每个样本由 RGB、深度图序列、3D 骨架数据和红外视频组成。
实验结果
从表1可以看出,在 CS 设置下, MM-GCN 达到了 94.9% 的识别正确率
从表3可以看出, 在 CS 和 CV 设置下, MM-GCN 分别取得了 90.2% 和 95.5% 的正确率, 其性能处于一个可以接受的水平, 表明其具有良好的鲁棒性能. 但是相比于在 ETRI-Activity3D 数据集上的表现有一定程度的降低。
总结
为了识别老年人日常行为,本文提出了一种新的基于多模态多粒度图卷积神经网络的行为识别方法. 该方法基于多模态学习框架设计了一种“点-线-面-段”数据表示策略, 利用注意力图卷积对这2类模态、4 种颗粒度的数据同时进行建模,学习细粒度的人体行为并获取高层语义特征完成老年人行为识别任务。为了验证所提方法的有效性和鲁棒性,在 ETRI-Activity3D 数据集和 NTU RGB+D 数据集上进行了对比实验。实验结果表明本文所提出的方法在老年人行为识别与常规行为识别任务上均表现出了不错的性能。