论文笔记(RF-pose)-2018-Through-Wall Human Pose Estimation Using Radio Signals

论文笔记(RF-pose)

论文:Through-Wall Human Pose Estimation Using Radio Signals

 

1、摘要:

介绍了一种深度神经网络方法,利用WiFi频率中穿过墙壁并反射到人体的无线电信号(射频,RF),来估计人体的二维姿态。由于无法对无线电信号进行标注,因此使用最先进的视觉模型( OpenPose )来提供跨模式的监督。具体来说,在训练过程中,系统使用同步的无线和视觉输入,从视觉流中提取姿态信息,并利用其指导训练过程。一旦经过训练,网络只使用无线信号进行姿态估计。

 

2、Related Work

RF-Pose传输低功耗无线信号(比WiFi低1000倍),并从环境中观察其反射。

Bottom-up methods:采用自底向上的方法,首先从射频信号图像中学习检测出姿态的所有关键点,然后使用后处理来关联属于同一个人的关键点。

cross-modal teacher-student networks:跨模态师生网络,它将以一种数据模态学到的知识转移到另一种数据模态。过去的工作只传输分类层次的判别知识,而这一网络在密集的关键点置信度图上传输更丰富的知识。

 

3、Method

 

3.1 Cross-Modal Supervision:

 考虑一对同步的图像和射频信号(I;R),R为垂直和水平热图的组合,I为对应的视觉图像。

教师网络( Teacher Network )T(·)以图像I为输入,预测关键点置信度图T(I)。这些预测图T(I)为学生网络( Student Network )S(·)提供了跨模态监督,学生网络S(·)从RF信号中学习预测关键点置信度图S(R)。文章采用 2D pose estimation network 作为教师网络。学生网络学习预测14个关键点的置信度图,这些置信度图对应于人体的以下部位:头部、颈部、肩膀、肘部、手腕、臀部、膝盖和脚踝。

学生网络S(·)的训练目标是最小化其预测S(R)与教师网络预测T(I)之间的差异 :

将损失定义为置信图中每个像素的二元交叉熵损失之和: 其中为置信度图c上的第(i;j)个像素。

 

3.2 Keypoint Detection from RF Signals:

问题1:人体在射频范围内会发生镜面反射,这一帧图像中可能会缺失部分无遮挡的肢体信息,因此不能从单一的射频帧估计人体姿态(单对水平和垂直热图)。此外,射频信号具有较低的空间分辨率,使用单一的射频帧很难精确定位关键点的位置。

解决1:不使用单个帧作为输入,而是让网络查看帧序列。当网络一次查看多个RF帧的剪辑时,它仍然为输入中的每一帧输出一个姿态估计。

 

问题2:希望网络在空间和时间上不受平移的影响,这样它就可以从可见场景推广到贯穿墙的场景。

解决2:使用时空卷积( spatio-temoral convolutions )作为学生网络的基本构建块。

 

问题3:将射频热图视图转换为教师网络摄像机视图。

解决3:模型必须首先学习在原始空间中没有编码的RF信号中的信息表示,然后将该表示解码为摄像机视图中的关键点。因此,如图3所示,学生网络结构:1) 两个分别用于水平和垂直热图流的RF编码网络Eh(·)和Ev(·);2) 一个位姿解码网络D(·),它以水平和垂直RF编码的信道级联作为输入,预测关键点置信度图。RF编码网络使用条纹卷积网络( strided convolutional networks )来去除空间维度,以便从原始视图中总结信息。位姿解码网络使用微条纹卷积网络( fractionally strided convolutional networks )来解码相机视图中的关键点。

 

3.3 Implementation and Training:

RF encoding network:RF编码网络,每个编码网络需要100帧(3.3秒)射频热图作为输入。RF编码网络在空间维度上每隔一层采用9×5×5的时空卷积( spatio-temporal convolutions ),步长1×2×2,共10层。在每一层之后执行ReLU激活函数进行批处理规范化。

Pose decoding network:位姿解码网络,将时空卷积和微条纹卷积结合起来解码姿态。解码网络有4层,3×6×6,分步步长为1×1/2×1/2,最后一层分步步长为1×1/4×1/4。除了输出层,在每一层之后都使用参数ReLu,在输出层中使用sigmoid。

Training Details:用存储实部和虚部的两个实部通道表示一个复值射频热图。使用的批大小为24。网络是在PyTorch中实现的。

 

3.4 Keypoint Association: 

首先对关键点置信度图进行非最大抑制,得到候选关键点的离散峰。为了将不同人的关键点关联起来,使用参考文献[10]中提到的松弛法,并使用欧氏距离表示两个候选点的权重。根据学习到的关键点置信度图逐帧执行关联。将关键点映射到骨架。

 

4、Experiments 

用70%的可见场景数据训练RF-Pose,剩下30%的可见场景数据和所有穿墙场景数据进行测试。确保训练数据和测试数据来自不同的环境。

 

4.1 Setup:

Evaluation Metrics:使用不同对象关键点相似度(OKS)下的平均精度(AP)来评估模型的性能。AP50和AP75,分别表示OKS为0.5和0.75时的平均精度,并被视为人体姿态的松散匹配和严格匹配。AP,也就是阈值范围从0.5到0.95时的10个不同OKS的平均精度。

Baseline:对于可见和部分遮挡的场景,将RF-Pose与OpenPose进行比较,OpenPose是一种最先进的基于视觉的模型,也充当教师网络。

Ground Truth:对于可视场景,使用与RF传感器相结合的摄像机捕捉的图像手动标注人体姿态。对于共聚焦摄像机无法看到另一个房间的人的穿透墙场景,使用文章中描述的8个摄像机系统来提供ground truth。对所有8台摄像机拍摄的图像进行标注,以构建三维人体姿态并将它们投射到与无线电同步的摄像机上。共标注2000张RGB图像:从可见场景测试集和穿透墙场景数据集中分别随机抽取1000张,并使用它们来测试视觉系统和RF-Pose。

 

4.2 Model Analysis:

使用引导反向传播来可视化与输入射频信号相关的梯度,并利用这些信息来深入了模型。

 

4.3 Identification Using RF-Based Skeleton:

RF-Pose捕捉场景中个体的个性化特征,可用于各种识别任务。

在两种环境下对100人进行了身份识别实验:1) 可视环境(受试者和射频设备在同一房间);2) 穿透墙壁环境(射频设备通过墙壁捕捉人的反射)。分别收集8分钟和2分钟的数据用于训练和测试。利用姿态估计数据集(不与此处的目标识别数据集重叠)训练的模型提取骨架热图。对于每种环境,训练一个10层的 vanilla CNN ,根据50帧连续的骨架热图来识别人。

  • 4
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值