Structured Denoising Diffusion Models in Discrete State-Spaces离散状态空间中的结构化去噪扩散模型笔记
摘要
本文:
- 引入了离散去噪扩散概率模型D3PMS ,其退化包括了:
- 在连续空间中模仿高斯核的过渡矩阵的退化
- 基于嵌入空间embedding space中最近邻的矩阵
- 引入吸收状态的矩阵
- 说明了过渡矩阵的选择非常重要,导致了文本和图像的改进结果
- 引入了新的损失函数,该函数将变分下限与辅助交叉熵损失结合起来。
本文结果:
- 文本:字符级文本生成取得了良好的结果
- 图像:接近样本质量,并超过了连续空间DDPM模型的对数可能性
1 引言
这项工作的目的:
- 通过使用一个更加结构化的分类退化过程来塑造数据生成、改进和拓展离散扩散模型
- 不需要将离散数据嵌入到连续空间
- 可以将结构或领域知识嵌入到正向过程的过渡矩阵中
作者:
- 开发了适合文本数据的结构化退化过程
- 探索了插入[MASK]标记的退化过程
- 量化了图像的离散扩散模型(优先扩散到更多相似状态)
- 引入了新的辅助损失,稳定了D3PMS的训练
- 引入了一系列基于相互信息的噪声计划,提高了性能
- 成功地将离散扩散模型拓展到大词汇量和长序列长度。
2 背景:Diffusion Models
回顾了Diffusion Models的前向过程和逆向过程,以及其对应的表达式。
3 离散状态空间的扩散模型
我们简要地描诉了一个更普遍的分类随机变量扩散框架:
对于具有K个类别的标量离散随机变量 x t , x t − 1 x_t,x_{t-1} xt,xt−1,他们的前向转移概率,可以用矩阵表示:
[ Q t ] i j = q ( x t = j ∣ x t − 1 = i ) [Q_t]_{ij}= q(x_t=j|x_{t-1}=i) [Qt]ij=q(xt=j∣xt−1=i)
用行向量 x \mathrm{x} x来表示 x x x的one-hot向量,则可以把概率改写为:
q ( x t ∣ x t − 1 ) = C a t ( x t ; p = x t − 1 Q t ) q(\mathrm{x_t}|\mathrm{x_{t-1}}) = Cat(\mathrm{x_t};p=\mathrm{x_{t-1}}Q_t) q(xt∣xt−1)=Cat(xt;p=x