3D human pose estimation in video with temporal convolutions and semi-supervised training

最新推荐文章于 2022-04-29 16:53:00 发布

心台雨山

最新推荐文章于 2022-04-29 16:53:00 发布

阅读量5k

点赞数 2

分类专栏：姿态估计文章标签：姿态估计深度学习神经网络

本文链接：https://blog.csdn.net/chizhaoyi1901/article/details/89136182

版权

1 篇文章 0 订阅

订阅专栏

工作重点：

难点：

方法：

时域空洞卷积自底至上输出三维信息，捕获长期关系：

网络模型结构：

在这里插入图片描述
结构以：

每帧J个关节的x、y坐标为输入；
卷积核大小W，输出C个特征；
应用B个残差模块，其中包括：
首先执行一维卷积，大小为W，扩张系数D；
线型投影（卷积），W=1，D=1；
batchnorm，线性校正单元，dropout……

关于空洞卷积：

引入半监督方法，利用未标记数据和二维关键点检测器，提高精度；
增加监督损失函数与反投影损失项；
利用三维姿态估计器作为编码器，将预测的姿态映射回二维空间，在此基础上计算重构损失；
包括一个监督组件和一个作为正则化器的非监督组件共同优化，其中标记数据占批次的前半部分，未标记数据占批次的后半部分。对于标记数据，我们使用地面真实三维姿态作为目标，训练监督损失。未标记的数据用于计算自动编码器损失，其中预测的3D姿态被投影回2D，然后检查与输入的一致性；
2D位姿包括：轨迹（人体在空间中的位置），和3D位姿（关节在人体的相对位置），因此分别回归两个相同体系结构网络，不共享权重；
骨长L2约束：将平均骨长作为软约束匹配未标记与标记数据；
只需要相机的内部参数(即焦距、主点和倾斜（可选）)；
该方法不依赖于任何特定的网络结构，可以应用于任何以二维关键点为输入的三维位姿检测器。

在这里插入图片描述