【论文阅读笔记 + 思考 + 总结】MoMask: Generative Masked Modeling of 3D Human Motions

最新推荐文章于 2025-05-01 21:42:17 发布

小吴同学真棒

最新推荐文章于 2025-05-01 21:42:17 发布

阅读量1.2k

点赞数 11

文章标签：人工智能动作生成深度学习 AIGC

本文链接：https://blog.csdn.net/qq_36627158/article/details/140824933

版权

创新点：

VQ-VAE 👉 Residual VQ-VAE，对每个 motion sequence 输出一组 base motion tokens 和 v 组 residual motion tokens
bidirectional 的 Masked transformer 用来生成 base motion tokens
Residual Transformer 对 residual motion tokens 进行建模

1. Residual VQ-VAE

VQ 0：就是和 T2M-GPT 一样的 codebook（T2M-GPT 的 VQ-VAE 只有这一级） 👉 base motion tokens

VQ 1：就是把 Encoder 的 output - VQ 0 codebook 的 embedding，对 residual（差值）的结果建立一个 codebook 👉 residual motion tokens

VQ V：（以此类推） 👉 residual motion tokens

decode 的时候，把每个层级的 token embedding 加起来，得到一个 embedding，送入 Decoder 里。

训练：

这里和 T2M-GPT 的 VQ-VAE （下面这个公式）有一点区别：

T2M-GPT 的 loss 由三部分组成，对比 MoMask 里 RVQ 只有 T2M-GPT 里 VQ 的 commit loss，不包含 embed loss

MoMask 里 RVQ 的 b 是编码过后，codebook 里的 embedding；T2M-GPT 的 Z 是进入 codebook 前的 embedding

sg 里的是 codebook 里的 embedding

效果：

这个是 T2M-GPT 里 VQ 的结果，FID 在 0.07 左右

这个是 MoMask 里 RVQ 的结果：

1. 不用 Residual（w/o RQ）就是单层级的 VQ（和 T2M-GPT 里 VQ 类似），FID 在 0.091 左右，比 T2M-GPT 里 VQ 稍微差一点（估计的 reconstruction loss 少了那一部分的原因？）

2. 用了多层级 motion tokens 后，也就是 with residual（MoMask）后，FID 是 0.019，提升蛮多。说明 residual 多层级 motion tokens 影响还蛮大的。

注意：

作者不希望 residual motion tokens 削弱 base motion tokens 的表达能力，还是希望 base motion tokens 能存储尽可能多的信息。所以在训练的时候还提出了一个 Quantization Dropout 的策略，即 randomly disables the last 0 to V layers with probability q ∈ [0, 1] during training.

Implementation Details

q = 0.2；V = 5