MHformer源码解读

最新推荐文章于 2024-05-15 09:32:56 发布

图谋不轨~

最新推荐文章于 2024-05-15 09:32:56 发布

阅读量2.6k

点赞数 31

分类专栏：知其然知其所以然文章标签：数码相机 pytorch 深度学习

本文链接：https://blog.csdn.net/m0_55521987/article/details/129402945

版权

知其然知其所以然专栏收录该内容

3 篇文章 0 订阅

订阅专栏

MHformer 源码学习

Human3.6
（上图转载知乎，侵权删）

1. 数据方面

1.1 下载过来的数据

“data_2d_h36m_cpn_ft_h36m_dbb”压缩包内是 2D关键的数据；“data_3d_h36m”内是3D关节点的数据。

a、3D关节点数据解压查看

读取“data_3d_h36m”压缩包内的 positions_3d.npy 文件；读取数据后，数据的格式是dict类型，第一层含有7个dict的字典，然后中的每一个元素均是含有30个dict的字典，这30个dict的字典中包含元素是一个动作序列维度表示为（动作序列长度，17,3），“S”表示人物。

-S1

----actions

----------frames

-----------------joints

-----------------------xyz

b、2D关节点数据解压查看

“data_2d_h36m_cpn_ft_h36m_dbb”压缩包内有两个文件，一个是metadata.npy,另一个是positions_2d.npy。

metadata.npy中含有的信息是2D 骨架中左右手边关节的 Index，左边6个，右边6个，没有包括对称中心线。

positions_2d.npy中含有的信息是4台相机的2D骨架数据，和3D数据类似也是层层字典数据嵌套，第一层字典元素表示 ‘S’ 人物，第二次字典嵌套则表示的是该人物下的动作类，第三次字典嵌套表示该人物该动作下的相机类（哪个相机拍的）。

-S

----actions

----------cameras

---------- ----frames

---------------------joints

----------------------------xyz

1.2 对于数据的处理流程

1.2.1、训练阶段

pytorch的数据需要用data.Dataset的子类，在本项目中，使用的是

①构建自己的Dataset先

②然后将自己构成的Dataset作为实参输入到data.Dataset的子类中从而初始化了一个data.Dataset的子类对象。

①、读取 3D Dataset(Human36mDataset)

a、加载相机内外参数据

b、加载数据集数据

构建的自己的Dataset 类名叫： Human36mDataset 继承于 MocapDataset（这样的做法应该是为了起到抽象的作用，松耦合的模式）

这处理的过程是在读取的数据的基础上加上了4 相机的外参（注意同一个人下的相同相加下的外参是相同的-代码详，但是不同的相机的同一个人的外参，以及同一个相机的不同人的外参不一样）

c、修改数据为17个关节点（原本的32个）

②、加载2D数据、预处理（prepare_data函数）

目的：1）输出得到经过了长度对齐于3D数据，并且标准化后的2D数据

2）得到了额外标签position_3D下的处于相机坐标系的3D数据（每个人的动作下有四个）

加载2D数据

a、坐标系转换3D-w2c 并处理真值（除盆骨外均变为相对向量）

训练阶段我们的目的是在相机坐标系下将2D姿态估计出相机坐标系下的3D姿态来，所以需要将3D的数据转换到 每个人下的四台相机下（数据量一下翻了4倍）。如下图所示在原本的Dataset上同 “position”,"cameras"下额外加了一个标签“positions_3d”表示这个人四台相机坐标系下的3D关节点。

b、2D 数据与3D数据长度一致化

动作序列长度一致化的前提是：2D动作的序列 大于等于 3D动作的序列

c、2D数据标准化

将2D数据根据其拍摄的相机内参进行标准化到 [-1,1]，这样有利于模型的训练

③、以相机为最小单位制作序列数据（fetch函数）

输出：out_camera_params, out_poses_3d, out_poses_2d

序列数据就是一个人一个动作下的数据，先从Dataset中取出序列数据，使得可以统一检索，比如检索号是(S_Index，action_Index，camera_Index),则可以找到同一组的信息

a、2D 序列数据

b、序列数据下的相机内参

c、3D序列数据

④、分块生成器-用于DataLoad中的Batch操作（ChunkedGenerator函数）

ChunkedGenerator的主要作用是生成一个 generator的类使得在在DataLoad在调用__getitem__时，可以通过generator产生一个 batch。

a、pairs的形成-ChunkedGenerator中把序列数据处理为单帧

分析：一个pairs的包表示一段序列，单个pair中的元素由五个组成，分别是：（（人物、动作类型、相机编号）、这一帧在序列中的Index范围（左闭右开）、augment_vector、reverse_augment_vector）。

通过（人物、动作类型、相机编号）便可以找到这一个动作序列

b、get_batch的处理

猜想：DataLoad在取数据时随机从 paris中抽出一个其index，通过其index在获得其pair中信息比如（人物、动作类型、相机编号），找到其对应的序列后然后对该index处于序列中的位置进行感受野放大（输入、输出都放大）-放大为frames大小，不能放大的index对其进行左padding，右padding。