论文阅读（7）Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation-CSDN博客

本文链接：https://blog.csdn.net/Study____forever/article/details/143186213

Contribution

正式定义了手势空间中的扩散和去噪过程，以合成高保真的音频对齐手势
设计具有隐式无分类器引导的 Diffusion Audio-Gesture Transformer，以更好地处理多个连续模态的条件信息，保证时序对齐
采用退火采样策略，以消除时间不一致性

Method

在这里插入图片描述

Problem Formulation

数据准备：
- 对于 $N$ 帧的视频片段，提取出对应的语音音频序列 $a=\{a_1,\dots,a_N\}$
- 使用 $Op e n P ose$ 标记每一帧的骨架 $x=\{p_1,\dots,p_N\}$
数据预处理：
- 将骨架数据转换为单位方向向量的串联，其中 $p_i$ 表示第 $i$ 帧的骨架， $J$ 是关节的总数， $d_{i,j}$ 表示第 $i$ 帧中第 $j$ 个和第 $(j + 1)$ 个关节之间的单位方向向量。
模型目标：
- 训练一个模型 $G$ ，其参数化为 $\theta$ ，目标是合成人体骨架序列 $x$ ，该序列受语音音频序列 $a$ 和初始姿势 $\{p_1,\dots,p_M\}$ 的条件限制。
- $\arg \min_{\theta}\| x-G_{\theta}(a,p_1,\dots,p_M) \|$

Diffusion Audio-Gesture Transformer

将噪声手势序列和上下文信息并入特征通道，利用注意力机制捕捉时序信息
$\text{Attention(Q,K,V)=softmax}(\frac{\text{QK}^T}{\sqrt{l}})\text{V}$

Diffusion Gesture Stabilizer

在 DDPM 中独立随机噪声 $z$ 的引入有利于提高多样性，但是在时序上 $z$ 会破坏一致性（为什么

阈值化（Thresholding）

目的：限制时间变化以避免不一致性。
方法：设置一个时间阈值 $t_0$ 。对于 $t<t_0$ ，使用原始采样策略为每个时间步 $t$ 生成一个独立的高斯噪声 $z$ 。对于 $t\le t_0$ ，所有帧使用相同的噪声 $z_0$ ，确保时间维度上没有变化。
效果：通过减少早期时间步的噪声变化，可以提高手势序列的时间一致性。

平滑采样（Smooth Sampling）

目的：通过平滑退火过程进一步控制时间变化，以在多样性和一致性之间取得平衡。
方法：
1. 对于每个时间步 $t$ ，在反向过程中只生成一个噪声 $z_0(t)$ ，该噪声是从 $N(0,\sigma_a(t)^2I)$ 中采样得到。
2. 给定 $z_0(t)$ ，为每帧 $i$ 生成条件噪声 $z_i(t)$ ，其中 $z_i(t)$ 从 $N(z_0(t),(1-\sigma_a(t)^2)I)$ 中采样。
3. 函数 $\sigma_a(t)$ 是一个非递减函数，用于实现方差退火。
效果：通过在时间步中引入更平滑的噪声变化，该方法在保持一定多样性的同时减少了时间的不一致性。

Implicit Classifier-free Guidance

$\hat{\epsilon}_{\theta}=\epsilon_{\theta} ( x_{t}, t )+s \cdot( \epsilon_{\theta} ( x_{t}, c, t )-\epsilon_{\theta} ( x_{t}, t ) )$

Experiments

Evaluation Metrics

Fréchet Gesture Distance (FGD)：测量生成手势序列和真实手势序列的数据分布差异
1. 训练一个手势序列自编码器来提取真实手势序列 $X$ 和生成手势序列 $\hat{X}$ 的特征。
2. $FGD(X,\hat{X})=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r+\Sigma_g-2(\Sigma_r\Sigma_g)^{1/2})$ ，其中 $\mu$ 和 $\Sigma$ 分别表示特征分布的一二阶矩。
Beat Consistency Score (BC)：衡量动作与音频节奏之间的相关性
1. 运动节拍检测：由于不同关节的运动速度不同，因此采用骨骼之间夹角的变化来追踪运动节拍。
  - 相邻帧之间的平均绝对角变化（MACC）为：
    
    $\mathrm{MAAC}(\theta_j) = \frac{1}{S} \frac{1}{T-1} \sum_{s=1}^S\sum_{t=1}^{T-1}\|\theta_{j, s, t+1} - \theta_{j, s, t}\|_1$
    
    其中，夹角 $\theta_j$ 为第 $j$ 根骨髓与第 $(j + 1)$ 根骨髓之间的夹角， $S$ 是数据集中片段的总数， $T$ 是每个片段的帧数。
  - 角度变化率：
    
    计算第 $s$ 个片段在某一帧 $t$ 的角度变化率： $\frac{1}{J-1}\sum_{j=1}^{J-1}(\frac{\|\theta_{j, s, t+1} - \theta_{j, s, t}\|_1}{\mathrm{MAAC}(\theta_j)})$
    
    这里 $J$ 是关节的总数。这个公式的意义在于衡量在时间上，关节之间的运动变化相对于其平均变化的比率。
  - 提取运动节拍：通过提取一阶差分高于某个阈值的局部极值，来获得运动节拍。
2. 音频节拍检测：参考 Danceformer 论文，使用音频的起始强度（onset strength）来检测音频节拍。
3. 计算节拍一致性评分（BC）：
  $\mathrm{BC} = \frac{1}{n}\sum_{i=1}^n\exp (-\frac{\min_{\forall t_j^y\in B^y}\|t_i^x - t_j^y\|^2}{2\sigma^2})$
  其中， $t_i^x$ 是第 $i$ 个音频节拍， $B^y=\{t_i^y\}$ 是运动节拍的集合， $\sigma$ 是用于归一化的参数。该公式的核心思想是计算每个音频节拍与其最近的运动节拍之间的距离，距离越小，表明手势与音频的节奏越同步。
Diversity：衡量对应不同输入生成的手势之间的变化程度
1. 使用与FGD相同的特征提取器将生成的手势映射到潜在特征向量。
2. 计算这些特征向量之间的平均特征距离，距离越大，表明生成的手势越多样化。