论文笔记(RF-pose)-2018-Through-Wall Human Pose Estimation Using Radio Signals

最新推荐文章于 2024-04-24 17:36:07 发布

clover_my

最新推荐文章于 2024-04-24 17:36:07 发布

阅读量3.7k

点赞数 4

分类专栏：论文笔记文章标签：深度学习 RF-Pose

本文链接：https://blog.csdn.net/clover_my/article/details/89334407

版权

论文笔记专栏收录该内容

8 篇文章 8 订阅

订阅专栏

论文笔记(RF-pose)

论文：Through-Wall Human Pose Estimation Using Radio Signals

1、摘要：

介绍了一种深度神经网络方法，利用WiFi频率中穿过墙壁并反射到人体的无线电信号（射频，RF），来估计人体的二维姿态。由于无法对无线电信号进行标注，因此使用最先进的视觉模型( OpenPose )来提供跨模式的监督。具体来说，在训练过程中，系统使用同步的无线和视觉输入，从视觉流中提取姿态信息，并利用其指导训练过程。一旦经过训练，网络只使用无线信号进行姿态估计。

2、Related Work

RF-Pose传输低功耗无线信号(比WiFi低1000倍)，并从环境中观察其反射。

Bottom-up methods：采用自底向上的方法，首先从射频信号图像中学习检测出姿态的所有关键点，然后使用后处理来关联属于同一个人的关键点。

cross-modal teacher-student networks：跨模态师生网络，它将以一种数据模态学到的知识转移到另一种数据模态。过去的工作只传输分类层次的判别知识，而这一网络在密集的关键点置信度图上传输更丰富的知识。

3、Method

3.1 Cross-Modal Supervision：

考虑一对同步的图像和射频信号(I;R)，R为垂直和水平热图的组合，I为对应的视觉图像。

教师网络( Teacher Network )T(·)以图像I为输入，预测关键点置信度图T(I)。这些预测图T(I)为学生网络( Student Network )S(·)提供了跨模态监督，学生网络S(·)从RF信号中学习预测关键点置信度图S(R)。文章采用 2D pose estimation network 作为教师网络。学生网络学习预测14个关键点的置信度图，这些置信度图对应于人体的以下部位：头部、颈部、肩膀、肘部、手腕、臀部、膝盖和脚踝。

学生网络S(·)的训练目标是最小化其预测S(R)与教师网络预测T(I)之间的差异：

将损失定义为置信图中每个像素的二元交叉熵损失之和：其中和为置信度图c上的第(i;j)个像素。

3.2 Keypoint Detection from RF Signals：

问题1：人体在射频范围内会发生镜面反射，这一帧图像中可能会缺失部分无遮挡的肢体信息，因此不能从单一的射频帧估计人体姿态(单对水平和垂直热图)。此外，射频信号具有较低的空间分辨率，使用单一的射频帧很难精确定位关键点的位置。

解决1：不使用单个帧作为输入，而是让网络查看帧序列。当网络一次查看多个RF帧的剪辑时，它仍然为输入中的每一帧输出一个姿态估计。

问题2：希望网络在空间和时间上不受平移的影响，这样它就可以从可见场景推广到贯穿墙的场景。

解决2：使用时空卷积( spatio-temoral convolutions )作为学生网络的基本构建块。

问题3：将射频热图视图转换为教师网络摄像机视图。

解决3：模型必须首先学习在原始空间中没有编码的RF信号中的信息表示，然后将该表示解码为摄像机视图中的关键点。因此，如图3所示，学生网络结构：1) 两个分别用于水平和垂直热图流的RF编码网络Eh(·)和Ev(·)；2) 一个位姿解码网络D(·)，它以水平和垂直RF编码的信道级联作为输入，预测关键点置信度图。RF编码网络使用条纹卷积网络( strided convolutional networks )来去除空间维度，以便从原始视图中总结信息。位姿解码网络使用微条纹卷积网络( fractionally strided convolutional networks )来解码相机视图中的关键点。

3.3 Implementation and Training：

RF encoding network：RF编码网络，每个编码网络需要100帧(3.3秒)射频热图作为输入。RF编码网络在空间维度上每隔一层采用9×5×5的时空卷积( spatio-temporal convolutions )，步长1×2×2，共10层。在每一层之后执行ReLU激活函数进行批处理规范化。

Pose decoding network：位姿解码网络，将时空卷积和微条纹卷积结合起来解码姿态。解码网络有4层，3×6×6，分步步长为1×1/2×1/2，最后一层分步步长为1×1/4×1/4。除了输出层，在每一层之后都使用参数ReLu，在输出层中使用sigmoid。

Training Details：用存储实部和虚部的两个实部通道表示一个复值射频热图。使用的批大小为24。网络是在PyTorch中实现的。

3.4 Keypoint Association：

首先对关键点置信度图进行非最大抑制，得到候选关键点的离散峰。为了将不同人的关键点关联起来，使用参考文献[10]中提到的松弛法，并使用欧氏距离表示两个候选点的权重。根据学习到的关键点置信度图逐帧执行关联。将关键点映射到骨架。

4、Experiments

用70%的可见场景数据训练RF-Pose，剩下30%的可见场景数据和所有穿墙场景数据进行测试。确保训练数据和测试数据来自不同的环境。

4.1 Setup：

Evaluation Metrics：使用不同对象关键点相似度(OKS)下的平均精度(AP)来评估模型的性能。AP50和AP75，分别表示OKS为0.5和0.75时的平均精度，并被视为人体姿态的松散匹配和严格匹配。AP，也就是阈值范围从0.5到0.95时的10个不同OKS的平均精度。

Baseline：对于可见和部分遮挡的场景，将RF-Pose与OpenPose进行比较，OpenPose是一种最先进的基于视觉的模型，也充当教师网络。

Ground Truth：对于可视场景，使用与RF传感器相结合的摄像机捕捉的图像手动标注人体姿态。对于共聚焦摄像机无法看到另一个房间的人的穿透墙场景，使用文章中描述的8个摄像机系统来提供ground truth。对所有8台摄像机拍摄的图像进行标注，以构建三维人体姿态并将它们投射到与无线电同步的摄像机上。共标注2000张RGB图像：从可见场景测试集和穿透墙场景数据集中分别随机抽取1000张，并使用它们来测试视觉系统和RF-Pose。

4.2 Model Analysis：

使用引导反向传播来可视化与输入射频信号相关的梯度，并利用这些信息来深入了模型。

4.3 Identification Using RF-Based Skeleton：

RF-Pose捕捉场景中个体的个性化特征，可用于各种识别任务。

在两种环境下对100人进行了身份识别实验：1) 可视环境(受试者和射频设备在同一房间)；2) 穿透墙壁环境(射频设备通过墙壁捕捉人的反射)。分别收集8分钟和2分钟的数据用于训练和测试。利用姿态估计数据集(不与此处的目标识别数据集重叠)训练的模型提取骨架热图。对于每种环境，训练一个10层的 vanilla CNN ，根据50帧连续的骨架热图来识别人。

clover_my

关注

4
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
论文笔记(RF-pose)-2018-Through-Wall Human Pose Estimation Using Radio Signals

论文笔记(RF-pose)论文：Through-Wall Human Pose Estimation Using Radio Signals1、摘要：介绍了一种深度神经网络方法，利用WiFi频率中穿过墙壁并反射到人体的无线电信号（射频，RF），来估计人体的二维姿态。由于无法对无线电信号进行标注，因此使用最先进的视觉模型(OpenPose )来提供跨模式的监督。具体来说，在训练过...
复制链接

扫一扫