贡献:作者在这篇论文中完成了什么工作(创新点)?
- 不仅可以对人物进行定位,还可以提供详细的3D骨骼并显示他们的确切姿势(从任何角度显示的3D骨架)
- 多人
- 系统可以在未经训练新环境中正常工作
规划:他们如何完成工作?
- 使用FMCW信号
- 骨架有14个关键点坐标
- 获取数据集:开发了一个由12台摄像机组成的协调系统,从每个摄像头利用OpenPose获得2D骨架,然后将2D 骨架组合在一起得到3D骨架(啊这……12台摄像机,因为当时还有没VideoPose3D)
- 如何实现多人检测:设计深度神经网络(region proposal network (RPN)),将射频信号转换为一个抽象域,该域浓缩了相关信息,然后在抽象域中分离出与不同个体有关的信息。
- 训练:CNN(ResNet)神经网络,使用来自相机系统的标记示例进行训练。一旦训练结束,模型就可以从射频信号中推断出3D骨骼。
自己的看法
- 如何获得位置信息?
生成3D关键点坐标时,这个坐标是包含真实空间位置的,应该有一个世界坐标系。不同于VideoPose3D是在原地的关键点坐标。