【论文阅读笔记】（2022 ECCV）CMD: Self-supervised 3D Action Representation Learning with Cross-modal Mutual Di

小吴同学真棒

已于 2023-04-04 14:25:18 修改

阅读量1.3k

点赞数

分类专栏：学习人工智能日常学习文章标签：论文阅读对比学习知识蒸馏自监督学习计算机视觉

于 2023-04-04 14:18:49 首次发布

本文链接：https://blog.csdn.net/qq_36627158/article/details/129950254

版权

学习同时被 3 个专栏收录

116 篇文章

订阅专栏

人工智能

73 篇文章

订阅专栏

日常学习

4 篇文章

订阅专栏

文章介绍了一个名为CMD的自监督学习框架，用于3D动作表示学习。CMD通过双向知识蒸馏在不同模态间传递信息，结合单模态对比学习和跨模态互蒸馏，优化模型在骨架点视频序列上的表征能力。实验表明，CMD在多个评估任务上表现出优越性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写在前面

我又回来啦~前段时间忙毕业论文，停更了好久【dbq】。现在论文终于送审出去啦~撒花花~

后面会继续读博当科研狗吧，努力继续看论文更新 blog，耶✌

有小伙伴提建议弄中文版的解读，咱努力哈，一般是英文，时间有富余的话会用中文再总结一遍哒~

今天可以有中文版~

CMD: Self-supervised 3D Action Representation Learning with Cross-modal Mutual Distillation

（2022 ECCV）

Yunyao Mao, Wengang Zhou, Zhenbo Lu, Jiajun Deng, and Houqiang Li*

Notes

Paper Link：https://arxiv.org/pdf/2208.12448.pdf

Code Link：https://github.com/maoyunyao/CMD

1. Contribution

作者提出了一个跨模态互蒸馏（Cross-modal Mutual Distillation，CMD）的自监督学习框架。

其中，模态之间进行的是双向知识蒸馏（bidirectional knowledge distillation）；

蒸馏的知识（knowledge）是样本和其他样本的相似度分布（the neighboring similarity distribution）

在蒸馏的过程中，为老师（teacher）和学生（student）模型设置不同的参数，目的是稳定蒸馏的过程，同时保证传输具有高置信度的知识。

2. Method

2.1 Overview

如图所示，CMD 框架包含两个模块：一个是单模态的对比学习（Single-modal Contrastive Learning，SCL），一个是跨模态互蒸馏（Cross-modal Mutual Distillation，CMD）。该框架既挖掘特定于单模态的特征，又利用多模态之间的交互来挖掘模态之间丰富的互补信息。

给定骨架点视频序列的不同模态（如 joint、bone 和 motion），先用 SCL 模块学习特定于单模态的特征。同时，在 CMD 模块里，将样本与其相近样本之间的相似度分布作为知识，通过减小模态之间知识的 KL 散度来达到知识蒸馏的目的。

注意，SCL 和 CMD 两个模块是同时训练的。

2.2 单模态对比学习 SCL

在该模块里，作者使用的是 MoCo v2 的对比学习框架。

具体来说，对每个样本 $x$ 进行两次数据增强，得到 $x_1$ ， $x_2$ 。 $x_1$ 和 $x_2$ 之间互为正样本，Memory Bank 中的样本为 $x_1$ 和 $x_2$ 的负样本。

训练时，key encoder（teacher model）不用梯度更新其模型的参数，而是用 query encoder （student model）的参数来进行动量更新，即

$\theta_k\leftarrow \alpha\theta_k+(1-\alpha)\theta_q$

损失函数用的是 InfoNCE.

2.3 跨模态互蒸馏 CMD

模态 A 的某个样本 $x_i^a$ 经过 key encoder（teacher model）后得到的特征向量为 $z_k^a$ ，从 A 模态的 Memory Bank 中找出和该特征向量最相近的 K 个特征向量 $\{n_i\}_{i=1,2,...,K}$ 。计算 $z_k^a$ 和这 K 个特征向量的距离，得到一个 K 维的距离向量 $\{z^\top m_i\}_{i=1,2,...,K}$ 。再对这 K 维的距离向量求 softmax，将其转化为一个和为 1 的概率向量，这也就是特征向量 $z_k^a$ 和最相近的 K 个特征向量的距离分布（即 A 模态上 teacher 的知识）。

模态 B 里该样本 $x_i^b$ 经过 query encoder （student model）后得到的特征向量为 $z_q^b$ ，从 B 模态的 Memory Bank 中找出和该特征向量最相近的 K 个特征向量，计算得到特征向量 $z_q^b$ 和最相近的 K 个特征向量的距离分布（即 B 模态上 student 的知识）

最后，通过减少 A 模态上 teacher 的知识 和 B 模态上 student 的知识 之间的 KL 散度，将 A 模态上的知识蒸馏到 B 模态的模型上（只更新 B 模态的模型参数）。

在进行知识蒸馏时，作者设置了超参数 $\tau$ . 由于老师模型（key encoder）是动量更新其参数，所以其提供的知识是更稳定的。为保证输出高置信度的知识，将老师模型（key encoder）的超参数 $\tau_t$ 设置成一个较小的数值。此时，老师模型和学生模型的超参数 $\tau$ 值是不相同的，这也就对应了 Contribution 中的最后一点（Asymmetric）。