VIBE流程

最新推荐文章于 2023-12-05 09:57:09 发布

平丘月初

最新推荐文章于 2023-12-05 09:57:09 发布

阅读量656

点赞数

分类专栏： torch 文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/u011994454/article/details/120847716

版权

torch 专栏收录该内容

17 篇文章

订阅专栏

main

包含了 $D a t a l o a d e r s$ , $Compile\;Loss$ , $Initialize\;networks,\;optimizers\;and\;lr\_schedulers$ , $Start\;Training$ 四个部分。

Dataloaders

Compile Loss

loss = VIBELoss(
       e_loss_weight=cfg.LOSS.KP_2D_W,
       e_3d_loss_weight=cfg.LOSS.KP_3D_W,
       e_pose_loss_weight=cfg.LOSS.POSE_W,
       e_shape_loss_weight=cfg.LOSS.SHAPE_W,
       d_motion_loss_weight=cfg.LOSS.D_MOTION_LOSS_W,
    )

包含了2D关键点损失，3D关键点损失，pose参数损失，shape参数损失，以及motion损失。

2D/3D关键点损失用的是weighted MSELoss。
pose和shape参数损失用的是MSELoss。其中pose损失在计算时，利用rodrigues公式，将 $a x i s - a n g l e$ 表示展开为 $[B, 24, 3, 3]$ 的旋转矩阵，和gt rotation matrix逐元素计算MSELoss。
motion discriminator损失用以约束一段视频动作的合理性。

Initialize networks, optimizers and lr_schedulers

networks

VIBE

MotionDiscriminator

输入尺寸为 $batch\_size, seq\_len, input\_size]$ ，假设输入尺寸为 $[2, 16, 6 : 75]$ ，则表示一次输入两个batch，每个batch的视频序列长度为16帧，每帧输入的pose为预测姿态的6:75个参数。

batchsize, seqlen, input_size = sequence.shape
senquence = torch.transpose(sequence, 0, 1) # [b, s, i] => [s, b, i]
outputs, state = self.gru(sequence) # [s, b, i] => [s, b, hidden_size], [num_layers, b, hidden_size]
outputs = F.relu(outputs)
avg_pool = F.adaptive_avg_pool1d(outputs.permute(1, 2, 0), 1).view(batchsize, -1) # [b, s]
max_pool = F.adaptive_max_pool1d(outputs.permute(1, 2, 0), 1).view(batchsize, -1) # [b, s]
output = self.fc(torch.cat([avg_pool, max_pool], dim=1)) # [b, 2*s] => [b, output_size]