easyui-window窗口不遮挡_使不可见变为可见:通过墙壁和遮挡的动作识别

058a6db9d247027ca307da07f2a8f9d7.png

使不可见变为可见:通过墙壁和遮挡的动作识别

论文笔记

论文:《Making the Invisible Visible: Action Recognition Through Walls and Occlusions 》
作者:Tianhong Li Lijie Fan MingminZhao Yingcheng Liu Dina Katabi
MIT CSAIL
发布时间:2019

背景

当目标在暗处时或被遮挡时,现有的行为识别模型失效了。作者将射频(RF)信号也作为输入,产生三维骨骼作为中间表示,并且能同时识别多个动作。通过三维骨骼的中间表示,模型可以从RF信号数据集和图像数据集中学习,并且相互加强。作者的模型性能与基于视觉的模型的性能是可比的,而在目标不可见时仍能工作。

目前基于RF信号的行为识别系统明显落后于基于视觉的,它们仅能识别2-10种行为,难以适应新环境,也不能适应训练时没有出现的目标,而且不能处理多目标的情况。所以作者希望将基于RF的系统和基于视觉的系统结合起来,于是提出了RF动作——一个从RF识别行为的端到端的神经网络。

例子

9a8954b1145ad36bcca6d56ab718eac7.png

在这个例子中,基于视觉的只能识别出左边的单独的目标而无法判断出目标的行为,而基于RF的能识别出两个目标从而判断出两个目标的行为——握手。

eb216115b8afadab8dca171f52f8398e.png

这个例子中,左边的目标由于光线很弱所以被基于视觉的系统忽略了,而基于RF的系统识别出了两个目标,并且识别出两个目标不同的动作。

三维骨架的好处

  • 能从基于RF和基于视觉的数据集中学习,并且利用已经存在的三维骨架数据集,如PKU-MMD和NTURGB+D 。
  • 能对骨架中间表示进行监督,而不是仅仅依靠过去基于RF的模型只能使用的动作标签。
  • 提升了模型适应新环境和目标的能力,因为三维骨架将环境和目标的影响降低了。

更进一步的发现和解决方案

  • 三维骨架会出错和预判失误,特别是基于RF的。所以在每个关节上加入了时变的置信系数。使用自关注(self-attention)使得模型根据置信系数关注不同的关节。
  • 过去的模型只能一次生成一个动作,但一个场景中的多个目标可能在做不同的动作。多预测(multi-proposal)模型可以解决这个问题。

贡献

  • 首个基于三维骨架和RF的动作识别模型
  • 首次将三维骨架作为中间表示
  • 提出了新的时空关注模型
  • 提出多目标模型

RF信号

设备有分别在水平方向和竖直方向的两组天线,所以收到两组热点图。

fe0698d7aa004eda4ef0c1d4c2bfc3bd.png
红色代表高值,蓝色代表低值

RF的工作频率是30帧

RF的问题

  • 穿墙RF信号相比视觉信号解析度更低
  • 人体会在穿墙RF信号下表现为镜面反射
  • RF信号穿墙时衰减得比空气中快

方法

d05045b4c56472c418281a8a0047263d.png

上图为作者提出的RF-行为系统,可以看到既可以从RF中提取骨架交由后面的网络处理也可以从视觉信号中提取。

RF生成骨架

过程的输入是从前面提到的两组热点图的90秒的窗口,输出是多人三维骨架。

这个网络有三个部分

  • 由时空卷积组成的特征提取网络
  • RPN
  • 三维姿态估计网络
这里作者参考了《RF-Based 3D Skeletons》(2018年)

不依赖表达形式(Modality-Independent)的行为识别

输入:将连续时间的骨架联系起来,按人分成组,每个骨架都由关键点坐标表示。而不同关键点在不同时间会发出不同大小的信号,导致关键点置信度的变化,将这些置信度也作为参数。则输入矩阵的大小为​

,其中4是三维坐标加置信系数,T是帧数,
​代表关键点数。

网络

  • 基于注意力机制的子网络从每个骨骼提取高阶的时空特征。(时空注意模型)
  • 多预测模型(Multi-Proposal Module)有两子网络:预测单人行为的子网络和预测两人互动的子网络。
  • 将生成的预测区域裁剪缩放输入分类器网络。
  • 分类网络先对预测区域进行二分类来判断是否有动作,然后预测动作的类别。

时空注意模型(Spatio-Temporal Attention Module)

模型基于分层共生网络(hierarchical co-occurrence network ,HCN),使用了两组卷积流:

  • 对关键点的空间卷积流。
  • 对关键点变化的时间卷积流。

再将两个流的输入连接起来。

然而不如人工标注的准确,不同的关键点还有不同的错误。为了使模型对关节有更高的置信系数,作者使用了时空注意模型,使用可学习的蒙版​和潜在的时空特征卷积,使得空间上更多地关注关节,时间上关注更多的有用序列。

这种机制改变了原有的HCN机制,不仅仅是将时空特征后期融合。

49efc41647ee36691f776106c2714c4d.png

多预测模型(Multi-Proposal Module)

设同一场景同时有N人,作者的模型会输出

​个预测,其中N个是各自行为的预测,而​
个是两两交互行为的预测。作者还采取了优先级的策略——互动优先于个人。

多通道的端到端培训(Multimodal End-to-end Training)

为了端到端的训练,作者使用逻辑回归而不是argmax方法。对RF数据集,反向传播调整整个网络的参数,对图像数据集,反向传播到骨架为止,仅调整动作识别模块的参数。这种多样化的数据提升了模型的性能。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值