Structured Denoising Diffusion Models in Discrete State-Spaces【D3PM重点笔记】

本文介绍了D3PM,一种适用于离散数据的扩散模型,通过选择不同的马尔可夫过渡矩阵实现结构化去噪。在文本生成中,D3PM在字符级任务上表现优越;在图像生成上,D3PM与连续空间模型相比,有较高的对数可能性。此外,通过调整噪声方案和损失函数,D3PM的性能得到提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Structured Denoising Diffusion Models in Discrete State-Spaces离散状态空间中的结构化去噪扩散模型笔记

摘要

本文:

  • 引入了离散去噪扩散概率模型D3PMS ,其退化包括了:
    • 连续空间中模仿高斯核的过渡矩阵的退化
    • 基于嵌入空间embedding space中最近邻的矩阵
    • 引入吸收状态的矩阵
  • 说明了过渡矩阵的选择非常重要,导致了文本和图像的改进结果
  • 引入了新的损失函数,该函数将变分下限与辅助交叉熵损失结合起来。

本文结果:

  • 文本:字符级文本生成取得了良好的结果
  • 图像:接近样本质量,并超过了连续空间DDPM模型的对数可能性

1 引言

这项工作的目的:

  • 通过使用一个更加结构化的分类退化过程来塑造数据生成、改进和拓展离散扩散模型
    • 不需要将离散数据嵌入到连续空间
    • 可以将结构或领域知识嵌入到正向过程的过渡矩阵中

作者:

  • 开发了适合文本数据的结构化退化过程
  • 探索了插入[MASK]标记的退化过程
  • 量化了图像的离散扩散模型(优先扩散到更多相似状态)
  • 引入了新的辅助损失,稳定了D3PMS的训练
  • 引入了一系列基于相互信息的噪声计划,提高了性能
    • 成功地将离散扩散模型拓展到大词汇量和长序列长度。

2 背景:Diffusion Models

回顾了Diffusion Models的前向过程和逆向过程,以及其对应的表达式。

3 离散状态空间的扩散模型

我们简要地描诉了一个更普遍的分类随机变量扩散框架:

对于具有K个类别的标量离散随机变量 x t , x t − 1 x_t,x_{t-1} xt,xt1,他们的前向转移概率,可以用矩阵表示:

[ Q t ] i j = q ( x t = j ∣ x t − 1 = i ) [Q_t]_{ij}= q(x_t=j|x_{t-1}=i) [Qt]ij=q(xt=jxt1=i)

用行向量 x \mathrm{x} x来表示 x x x的one-hot向量,则可以把概率改写为:

q ( x t ∣ x t − 1 ) = C a t ( x t ; p = x t − 1 Q t ) q(\mathrm{x_t}|\mathrm{x_{t-1}}) = Cat(\mathrm{x_t};p=\mathrm{x_{t-1}}Q_t) q(xtxt1)=Cat(xt;p=x

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值