使不可见变为可见:通过墙壁和遮挡的动作识别
论文笔记
论文:《Making the Invisible Visible: Action Recognition Through Walls and Occlusions 》
作者:Tianhong Li Lijie Fan MingminZhao Yingcheng Liu Dina Katabi
MIT CSAIL
发布时间:2019
背景
当目标在暗处时或被遮挡时,现有的行为识别模型失效了。作者将射频(RF)信号也作为输入,产生三维骨骼作为中间表示,并且能同时识别多个动作。通过三维骨骼的中间表示,模型可以从RF信号数据集和图像数据集中学习,并且相互加强。作者的模型性能与基于视觉的模型的性能是可比的,而在目标不可见时仍能工作。
目前基于RF信号的行为识别系统明显落后于基于视觉的,它们仅能识别2-10种行为,难以适应新环境,也不能适应训练时没有出现的目标,而且不能处理多目标的情况。所以作者希望将基于RF的系统和基于视觉的系统结合起来,于是提出了RF动作——一个从RF识别行为的端到端的神经网络。
例子
在这个例子中,基于视觉的只能识别出左边的单独的目标而无法判断出目标的行为,而基于RF的能识别出两个目标从而判断出两个目标的行为——握手。
这个例子中,左边的目标由于光线很弱所以被基于视觉的系统忽略了,而基于RF的系统识别出了两个目标,并且识别出两个目标不同的动作。
三维骨架的好处
- 能从基于RF和基于视觉的数据集中学习,并且利用已经存在的三维骨架数据集,如PKU-MMD和NTURGB+D 。
- 能对骨架中间表示进行监督,而不是仅仅依靠过去基于RF的模型只能使用的动作标签。
- 提升了模型适应新环境和目标的能力,因为三维骨架将环境和目标的影响降低了。
更进一步的发现和解决方案
- 三维骨架会出错和预判失误,特别是基于RF的。所以在每个关节上加入了时变的置信系数。使用自关注(self-attention)使得模型根据置信系数关注不同的关节。
- 过去的模型只能一次生成一个动作,但一个场景中的多个目标可能在做不同的动作。多预测(multi-proposal)模型可以解决这个问题。
贡献
- 首个基于三维骨架和RF的动作识别模型
- 首次将三维骨架作为中间表示
- 提出了新的时空关注模型
- 提出多目标模型
RF信号
设备有分别在水平方向和竖直方向的两组天线,所以收到两组热点图。
红色代表高值,蓝色代表低值
RF的工作频率是30帧。
RF的问题
- 穿墙RF信号相比视觉信号解析度更低
- 人体会在穿墙RF信号下表现为镜面反射
- RF信号穿墙时衰减得比空气中快
方法
上图为作者提出的RF-行为系统,可以看到既可以从RF中提取骨架交由后面的网络处理也可以从视觉信号中提取。
RF生成骨架
过程的输入是从前面提到的两组热点图的90秒的窗口,输出是多人三维骨架。
这个网络有三个部分
- 由时空卷积组成的特征提取网络
- RPN
- 三维姿态估计网络
这里作者参考了《RF-Based 3D Skeletons》(2018年)
不依赖表达形式(Modality-Independent)的行为识别
输入:将连续时间的骨架联系起来,按人分成组,每个骨架都由关键点坐标表示。而不同关键点在不同时间会发出不同大小的信号,导致关键点置信度的变化,将这些置信度也作为参数。则输入矩阵的大小为
网络:
- 基于注意力机制的子网络从每个骨骼提取高阶的时空特征。(时空注意模型)
- 多预测模型(Multi-Proposal Module)有两子网络:预测单人行为的子网络和预测两人互动的子网络。
- 将生成的预测区域裁剪缩放输入分类器网络。
- 分类网络先对预测区域进行二分类来判断是否有动作,然后预测动作的类别。
时空注意模型(Spatio-Temporal Attention Module)
模型基于分层共生网络(hierarchical co-occurrence network ,HCN),使用了两组卷积流:
- 对关键点的空间卷积流。
- 对关键点变化的时间卷积流。
再将两个流的输入连接起来。
然而不如人工标注的准确,不同的关键点还有不同的错误。为了使模型对关节有更高的置信系数,作者使用了时空注意模型,使用可学习的蒙版和潜在的时空特征卷积,使得空间上更多地关注关节,时间上关注更多的有用序列。
这种机制改变了原有的HCN机制,不仅仅是将时空特征后期融合。
多预测模型(Multi-Proposal Module)
设同一场景同时有N人,作者的模型会输出
多通道的端到端培训(Multimodal End-to-end Training)
为了端到端的训练,作者使用逻辑回归而不是argmax方法。对RF数据集,反向传播调整整个网络的参数,对图像数据集,反向传播到骨架为止,仅调整动作识别模块的参数。这种多样化的数据提升了模型的性能。