easyui-window窗口不遮挡_使不可见变为可见:通过墙壁和遮挡的动作识别

最新推荐文章于 2021-07-19 23:55:27 发布

Alfred Cheng

最新推荐文章于 2021-07-19 23:55:27 发布

阅读量233

点赞数

文章标签： easyui-window窗口不遮挡

本文链接：https://blog.csdn.net/weixin_36013970/article/details/112109109

版权

使不可见变为可见:通过墙壁和遮挡的动作识别

论文笔记

论文：《Making the Invisible Visible: Action Recognition Through Walls and Occlusions 》
作者：Tianhong Li Lijie Fan MingminZhao Yingcheng Liu Dina Katabi
MIT CSAIL
发布时间：2019

背景

当目标在暗处时或被遮挡时，现有的行为识别模型失效了。作者将射频（RF）信号也作为输入，产生三维骨骼作为中间表示，并且能同时识别多个动作。通过三维骨骼的中间表示，模型可以从RF信号数据集和图像数据集中学习，并且相互加强。作者的模型性能与基于视觉的模型的性能是可比的，而在目标不可见时仍能工作。

目前基于RF信号的行为识别系统明显落后于基于视觉的，它们仅能识别2-10种行为，难以适应新环境，也不能适应训练时没有出现的目标，而且不能处理多目标的情况。所以作者希望将基于RF的系统和基于视觉的系统结合起来，于是提出了RF动作——一个从RF识别行为的端到端的神经网络。

例子

在这个例子中，基于视觉的只能识别出左边的单独的目标而无法判断出目标的行为，而基于RF的能识别出两个目标从而判断出两个目标的行为——握手。

这个例子中，左边的目标由于光线很弱所以被基于视觉的系统忽略了，而基于RF的系统识别出了两个目标，并且识别出两个目标不同的动作。

三维骨架的好处

能从基于RF和基于视觉的数据集中学习，并且利用已经存在的三维骨架数据集，如PKU-MMD和NTURGB+D 。
能对骨架中间表示进行监督，而不是仅仅依靠过去基于RF的模型只能使用的动作标签。
提升了模型适应新环境和目标的能力，因为三维骨架将环境和目标的影响降低了。

更进一步的发现和解决方案

三维骨架会出错和预判失误，特别是基于RF的。所以在每个关节上加入了时变的置信系数。使用自关注（self-attention）使得模型根据置信系数关注不同的关节。
过去的模型只能一次生成一个动作，但一个场景中的多个目标可能在做不同的动作。多预测（multi-proposal）模型可以解决这个问题。

贡献

首个基于三维骨架和RF的动作识别模型
首次将三维骨架作为中间表示
提出了新的时空关注模型
提出多目标模型

RF信号

设备有分别在水平方向和竖直方向的两组天线，所以收到两组热点图。

红色代表高值，蓝色代表低值

RF的工作频率是30帧。

RF的问题

穿墙RF信号相比视觉信号解析度更低
人体会在穿墙RF信号下表现为镜面反射
RF信号穿墙时衰减得比空气中快

方法

上图为作者提出的RF-行为系统，可以看到既可以从RF中提取骨架交由后面的网络处理也可以从视觉信号中提取。

RF生成骨架

过程的输入是从前面提到的两组热点图的90秒的窗口，输出是多人三维骨架。

这个网络有三个部分

由时空卷积组成的特征提取网络
RPN
三维姿态估计网络

这里作者参考了《RF-Based 3D Skeletons》（2018年）

不依赖表达形式（Modality-Independent）的行为识别

输入：将连续时间的骨架联系起来，按人分成组，每个骨架都由关键点坐标表示。而不同关键点在不同时间会发出不同大小的信号，导致关键点置信度的变化，将这些置信度也作为参数。则输入矩阵的大小为

，其中4是三维坐标加置信系数，T是帧数，

代表关键点数。

网络：

基于注意力机制的子网络从每个骨骼提取高阶的时空特征。（时空注意模型）
多预测模型（Multi-Proposal Module）有两子网络：预测单人行为的子网络和预测两人互动的子网络。
将生成的预测区域裁剪缩放输入分类器网络。
分类网络先对预测区域进行二分类来判断是否有动作，然后预测动作的类别。

时空注意模型（Spatio-Temporal Attention Module）

模型基于分层共生网络（hierarchical co-occurrence network ，HCN）,使用了两组卷积流：

对关键点的空间卷积流。
对关键点变化的时间卷积流。

再将两个流的输入连接起来。

然而不如人工标注的准确，不同的关键点还有不同的错误。为了使模型对关节有更高的置信系数，作者使用了时空注意模型，使用可学习的蒙版和潜在的时空特征卷积，使得空间上更多地关注关节，时间上关注更多的有用序列。

这种机制改变了原有的HCN机制，不仅仅是将时空特征后期融合。

多预测模型（Multi-Proposal Module）

设同一场景同时有N人，作者的模型会输出

个预测，其中N个是各自行为的预测，而

个是两两交互行为的预测。作者还采取了优先级的策略——互动优先于个人。

多通道的端到端培训（Multimodal End-to-end Training）

为了端到端的训练，作者使用逻辑回归而不是argmax方法。对RF数据集，反向传播调整整个网络的参数，对图像数据集，反向传播到骨架为止，仅调整动作识别模块的参数。这种多样化的数据提升了模型的性能。

Alfred Cheng

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
easyui-window窗口不遮挡_使不可见变为可见:通过墙壁和遮挡的动作识别

使不可见变为可见:通过墙壁和遮挡的动作识别论文笔记论文：《Making the Invisible Visible: Action Recognition Through Walls and Occlusions 》作者：Tianhong Li Lijie Fan MingminZhao Yingcheng Liu Dina Katabi MIT CSAIL发布时间：2019背景当目标在暗处时或...
复制链接

扫一扫