可逆扩散模型用于压缩感知
Bin Chen, Zhenyu Zhang, Weiqi Li, Chen Zhao, Jiwen Yu, Shijie Zhao, Jie Chen, and Jian Zhang
摘要——尽管深度神经网络(NN)在提升图像压缩感知(CS)重建质量方面取得了显著进展,但当前 CS 神经网络需要从零开始训练,这限制了它们的有效性,并阻碍了快速部署。尽管最近的一些方法尝试利用预训练的扩散模型进行图像重建,但它们存在推理速度慢以及对 CS 适应性不足的问题。为了解决这些挑战,本文提出可逆扩散模型(IDM),一种高效的端到端扩散式 CS 方法。IDM 重新利用了大规模扩散采样过程作为重建模型,并对其进行端到端微调,使其能够直接从 CS 测量值中恢复原始图像,从而突破了传统单步噪声估计学习的范式。
为了实现如此占用大量内存的端到端微调,我们提出了一种新颖的双层可逆设计,将 (1) 多步采样过程 和 (2) 每一步的噪声估计 U-Net 转换为可逆网络。因此,在训练过程中,我们可以清除大部分中间特征,最多可减少 93.8% 的 GPU 内存占用。此外,我们还开发了一组轻量级模块,将测量值注入噪声估计器,以进一步提升重建能力。实验表明,IDM 相比当前最先进的 CS 网络,在 PSNR 上最高提升 2.64dB。与最近的基于扩散模型的 DDNM 方法相比,IDM 在 PSNR 上最高提升 10.09dB,推理速度快 14.54 倍。
代码已开源:https://github.com/Guaishou74851/IDM。
关键词——压缩感知、扩散模型、可逆神经网络、压缩成像、图像重建。
解释:
这篇论文的核心问题是如何用扩散模型(Diffusion Model)高效地进行压缩感知图像重建。
什么是压缩感知(Compressed Sensing, CS)?
CS 是一种图像获取方式,它用远少于常规采样点的数据来表示一幅图像,再通过计算方法重建原始图像。这种方法对医学成像、雷达、无线通信等领域都很重要。
当前方法的挑战是什么?
- 现有基于深度学习的 CS 方法都需要从头训练,耗时且难以快速部署。
- 最近的扩散模型(Diffusion Model)虽然能用于 CS,但推理速度慢,适应性差,无法高效工作。
IDM 是如何解决这些问题的?
IDM 主要做了三件事:
- 重新设计扩散模型,使其能直接用于 CS 重建,不再依赖传统的单步噪声估计方法。
- 提出可逆网络(Invertible Network)结构,减少 GPU 内存占用,最高可降低 93.8% 内存需求。
- 优化 CS 过程的测量值注入方式,让重建效果更好。
实验结果:
- IDM 比现有 CS 网络提升最多 2.64dB 的 PSNR(PSNR 越高,重建质量越好)。
- 相比最近的 DDNM 方法,IDM 提升了 10.09dB 的 PSNR,推理速度快 14.54 倍。
总结: IDM 结合了扩散模型的强大重建能力和可逆网络的高效计算,大幅提升了 CS 图像重建的质量和速度,使其更适用于实际应用场景。
翻译:
- 本研究部分得到了国家自然科学基金(项目编号:62372016)以及广东省超高清沉浸式媒体技术重点实验室(项目编号:2024B1212010006)的资助。
- Bin Chen、Zhenyu Zhang、Weiqi Li、Jiwen Yu、Jie Chen 和 Jian Zhang 隶属于北京大学电子与计算机工程学院,地址:中国深圳 518055。
- Chen Zhao 隶属于沙特阿卜杜拉国王科技大学(KAUST),地址:沙特阿拉伯 Thuwal 23955。
- Shijie Zhao 隶属于字节跳动有限公司,地址:中国深圳 518055。
- 通讯作者:Chen Zhao。
- 电子邮件:
- {chenbin, liweiqi, yujiwen}@stu.pku.edu.cn
- {zhenyuzhang, jiechen2019, zhangjian.sz}@pku.edu.cn
- chen.zhao@kaust.edu.sa
- zhaoshijie.0526@bytedance.com
- 论文信息:
- 投稿日期:2024 年 5 月 15 日
- 修订日期:2024 年 11 月 29 日,2025 年 1 月 22 日
- 接收日期:2025 年 1 月 26 日
解释:
这部分内容是论文的资助信息、作者单位、通讯作者和投稿时间线,通常用于说明研究的资金来源、作者的机构归属,以及论文的投稿和审稿时间。
-
研究资助来源
- 研究得到了中国国家自然科学基金和广东省超高清沉浸式媒体技术重点实验室的资助,表明该项目有国家级和省级科研资金支持。
-
作者单位
- 绝大部分作者(Bin Chen、Zhenyu Zhang、Weiqi Li、Jiwen Yu、Jie Chen、Jian Zhang)都来自北京大学深圳校区的电子与计算机工程学院。
- Chen Zhao 在沙特阿拉伯的阿卜杜拉国王科技大学(KAUST),表明该研究可能有国际合作。
- Shijie Zhao 在字节跳动,说明该研究与工业界(尤其是互联网和 AI 领域)有一定的联系。
-
通讯作者
- 论文的**通讯作者(Corresponding Author)**是 Chen Zhao,意味着如果其他研究者对这篇论文有疑问,最主要的联系对象是他。
-
论文时间线
- 2024 年 5 月 15 日投稿,表明论文最早在这个时间完成初稿并提交。
- 2024 年 11 月 29 日和 2025 年 1 月 22 日经历了至少两轮修改,说明论文在审稿过程中有调整和优化。
- 2025 年 1 月 26 日最终接收,意味着论文经过同行评审,已经被正式录用。
总结来看,这部分信息主要展示了研究资金来源、作者背景、通讯作者和论文审稿历程,对正式发表的论文来说,这些内容有助于增强可信度,同时也方便其他学者联系作者获取更多信息。
翻译:
1 引言
压缩感知(Compressed Sensing, CS) 是一种新型信号采集范式,突破了奈奎斯特-香农定理(Nyquist-Shannon theorem)的限制。CS 已经激发了多个成像领域的研究,包括单像素成像(SPI)、磁共振成像(MRI)、计算机断层成像(CT) 以及快照压缩成像(SCI)。
在本文中,我们关注自然图像的 CS 重建,目标是从其线性测量值
y
∈
R
M
y \in \mathbb{R}^{M}
y∈RM 恢复原始图像
x
∈
R
N
x \in \mathbb{R}^{N}
x∈RN。这些测量值通过一个随机采样矩阵
A
∈
R
M
×
N
A \in \mathbb{R}^{M \times N}
A∈RM×N 进行投影,形成
y
=
A
x
y = Ax
y=Ax
其中,CS 采样率定义为
γ
=
M
/
N
\gamma = M / N
γ=M/N。在实践中,通常希望
γ
\gamma
γ 取较小值,即
M
≪
N
M \ll N
M≪N,这样可以带来诸如更低的能耗和更短的信号采集时间等优势。然而,较低的
γ
\gamma
γ 也带来了挑战,即如何仅利用有限的信息
{
y
,
A
,
γ
}
\{y, A, \gamma\}
{y,A,γ} 可靠地恢复
x
x
x,由于这是一个病态逆问题。
在自然图像的 CS 重建领域,深度神经网络(NNs) 在准确性和计算效率方面通常优于传统的基于优化的方法。早期的 CS 深度学习方法将 CS 重建视为**去混叠(de-aliasing)**问题,仅通过神经网络的一次前向传播(forward pass)即可实现快速的非迭代重建。
此外,深度算法展开(deep algorithm unrolling)、即插即用(plug-and-play, PnP) 以及去噪正则化(regularization by denoising, RED) 技术有效地分离了测量一致性(measurement consistency)与图像先验学习(image prior learning),从而在性能和可解释性之间取得平衡。然而,如图 1(a) 所示,这些方法通常需要从零开始设计和训练新的神经网络架构,这不仅耗时,还可能导致次优性能。
近年来,扩散模型(diffusion models) 在多个图像重建任务中得到了广泛应用,利用了预训练的生成式去噪先验。这些方法通过后验分布 p ( x ∣ y ) p(x|y) p(x∣y) 迭代采样,逐步生成图像估计值 x ^ \hat{x} x^,从而实现测量条件下的高质量图像合成。与 PnP 方法类似,当前基于扩散的 CS 研究主要关注学习一个噪声估计网络或直接使用预训练的去噪网络来解决图像先验子问题。
解释:
这一部分是论文的引言,介绍了压缩感知(CS) 及其在图像处理中的应用,并讨论了传统方法的局限性,以及深度学习和扩散模型在 CS 重建中的优势。
-
什么是压缩感知(CS)?
- CS 是一种高效的信号采集技术,它能在远低于奈奎斯特采样率的条件下恢复信号。
- CS 在医学成像(MRI, CT)、计算机视觉(单像素成像, 快照压缩成像)等领域得到了广泛应用。
-
CS 图像重建的挑战
- 在 CS 中,我们用一个随机矩阵
A
A
A 对原始图像
x
x
x 进行投影,得到测量值
y
y
y:
y = A x y = Ax y=Ax - 由于 CS 采样率 γ = M / N \gamma = M/N γ=M/N 很小( M ≪ N M \ll N M≪N),导致信息不足,恢复原始图像 x x x 变得非常困难(病态逆问题)。
- 在 CS 中,我们用一个随机矩阵
A
A
A 对原始图像
x
x
x 进行投影,得到测量值
y
y
y:
-
深度学习在 CS 重建中的优势
- 早期神经网络方法(NNs):
- 仅通过一次**前向传播(forward pass)**就能快速重建图像,但可能缺乏优化灵活性。
- 更先进的方法:
- 即插即用(PnP)和去噪正则化(RED)等技术能分离测量一致性与图像先验学习,取得更好的平衡。
- 但这些方法通常需要从头训练新的神经网络,过程繁琐,效果也未必最佳。
- 早期神经网络方法(NNs):
-
扩散模型(Diffusion Models)的新突破
- 近年来,扩散模型在 CS 领域得到了广泛应用,它利用预训练的生成式去噪网络进行重建。
- 这些方法通过后验分布 p ( x ∣ y ) p(x|y) p(x∣y) 迭代采样,从噪声逐步生成清晰图像 x ^ \hat{x} x^,取得了更高质量的测量条件下图像合成。
- 优点:
- 不需要从零开始设计新网络,可以直接使用已有的预训练去噪模型。
- 在 CS 任务中展现出更好的重建效果。
总结来说,这部分内容主要介绍了CS 的概念、传统方法的局限性,以及扩散模型如何提升 CS 任务的性能。
翻译:
然而,这些方法通常需要大量的超参数调整,例如步长、正则化系数和噪声水平。此外,如图 1(b) 所示,它们的神经网络骨干主要针对一步噪声估计进行训练,而不是直接优化从 CS 测量值
y
y
y 到目标原始图像
x
x
x 的完整重建过程。此外,以往基于扩散的逆问题求解方法可能需要 10 到 1000 次迭代才能获得令人满意的结果。采用潜变量扩散模型(如稳定扩散)的方法通常涉及多阶段训练,或者在采样过程中频繁在图像空间和潜变量空间之间转换,依赖深度 VAE 编码器和解码器,从而降低了 CS 成像系统的效率。
为了解决这些挑战,本文提出了一种用于图像 CS 重建的可逆扩散模型(IDM),如图 1© 所示。不同于现有方法中基于一步噪声估计的学习方式,我们的 IDM 建立了一个全新的端到端框架,直接训练一个大规模的预训练扩散采样过程,使其与理想的重建映射 y → x y \to x y→x 对齐。这种对齐方式确保了扩散过程中的所有参数及噪声估计网络的权重都针对图像 CS 重建进行了专门优化,从而显著提升性能,并消除了大量采样步骤的需求。然而,端到端训练如此大规模的扩散模型需要极高的 GPU 内存,使其在标准 GPU 上几乎无法实现。
为了解决这一问题,我们利用了可逆神经网络的内存高效性,并提出了一种新颖的两级可逆设计。这一设计在两个方面引入了辅助连接:(1)整个扩散采样框架的多个步骤之间,(2)每个步骤内的噪声估计 U-Net,使得两者均转换为可逆网络。这种方法允许 IDM 在前向传播过程中清除大部分中间特征,并在反向传播时重新计算它们,从而显著降低 GPU 内存消耗。
解释:
这段话讨论了现有扩散模型在 CS 任务上的问题,并提出了一种新的可逆扩散模型(IDM)来改进 CS 图像重建。
-
现有方法的不足
- 现有基于扩散的 CS 方法需要调整多个超参数(如步长、正则化系数、噪声水平),调试复杂。
- 这些方法的神经网络(NN) 主要是为一步噪声估计设计的,而不是直接学习从测量值 y y y 到原始图像 x x x 的完整映射。
- 计算成本高:当前扩散模型往往需要10~1000 次迭代,才能得到较好的重建结果。
- 潜变量扩散方法(如稳定扩散):需要多阶段训练,并且在采样时频繁在图像和潜变量空间间转换,导致效率下降。
-
提出的新方法:可逆扩散模型(IDM)
- IDM 是一个端到端的扩散重建框架,它直接优化整个扩散过程,使其与 CS 重建任务的映射 y → x y \to x y→x 对齐。
- 好处:相比传统方法,IDM 训练的参数更加针对 CS 任务,能在更少的采样步骤下获得更好的重建效果。
-
挑战:训练 IDM 需要巨大计算资源
- IDM 需要对大规模扩散模型进行端到端训练,这需要大量 GPU 内存,在标准 GPU 上难以运行。
-
解决方案:可逆神经网络
- 我们利用可逆神经网络(Invertible Neural Networks, INN),提出两级可逆设计:
- 在扩散过程的多个步骤之间引入辅助连接,使整个扩散采样框架可逆。
- 在噪声估计 U-Net 内部引入可逆机制,使其计算更加高效。
- 优点:
- 在前向传播时清除大部分中间特征,减少显存占用。
- 在反向传播时可以重新计算这些特征,从而大幅降低 GPU 需求,使得 IDM 训练变得可行。
- 我们利用可逆神经网络(Invertible Neural Networks, INN),提出两级可逆设计:
总结来说,IDM 通过引入可逆神经网络,既保持了扩散模型的高性能,又减少了对 GPU 内存的需求,从而提升了 CS 任务的计算效率和重建质量。
翻译:
与需要从零开始训练的传统端到端 CS 神经网络相比,IDM 充分利用了预训练扩散模型,仅需最小化的微调即可适配 CS 任务。此外,我们引入了轻量级神经网络模块——注入器(injectors),直接将测量数据 y y y 的信息融合到噪声估计 U-Net 的各个空间尺度的深层特征中,以增强重建效果。我们的方法充分利用预训练扩散模型的能力,提升 CS 性能,为大规模扩散模型在图像重建中的定制化应用开辟了新路径。
总结而言,我们的贡献如下:
(1) 我们提出 IDM,一种高效的端到端扩散 CS 方法。不同于以往的一步扩散噪声估计,IDM 通过端到端微调大规模采样过程直接从 CS 测量数据恢复图像,性能提升最高可达 4.34dB PSNR,同时采样步数减少 98%,推理速度提升超过 25 倍。
(2) 我们提出了一种新的双层可逆设计,分别应用于扩散采样框架和噪声估计 U-Net,将微调时的显存占用降低最多 93.8%。
(3) 我们设计了一套轻量级注入器模块,将 CS 测量数据及采样矩阵融合进噪声估计 U-Net,以增强 CS 重建效果。这些注入器仅增加 0.02M 个参数,却可带来超过 2dB PSNR 的提升,相比之下,U-Net 具有超过 100M 个参数。
(4) 我们在四个典型任务上评估了 IDM,如图 1 (c ) 所示,包括自然图像 CS、图像修复、加速 MRI 和稀疏视角 CT。IDM 达到了新的最先进水平(SOTA),相较于现有 CS 神经网络,PSNR 提升最高可达 2.64dB,相比扩散方法 DDNM,PSNR 提升最多 10.09dB,推理速度快 14.54 倍。
解释:
以往的 CS 方法需要从零训练一个新的神经网络,而 IDM 直接使用已经训练好的扩散模型,只需稍加调整即可应用到 CS 任务中。同时,我们设计了一种新的方法,把测量数据 y y y 直接注入到神经网络的不同层级,使其更容易恢复原始图像。
IDM 主要有四大创新点:
- 更快更准的重建:以前的方法要么慢,要么效果一般,而 IDM 直接优化整个扩散过程,使得恢复的图像更清晰,最高能比之前的方法提升 4.34dB PSNR,速度快 25 倍。
- 更省显存:我们使用了一种“可逆”设计,把计算过程中产生的中间数据删掉,等需要时再重新计算,从而把显存占用降低了 93.8%。
- 更高效的融合方法:我们设计了轻量级的注入器,把测量数据直接整合进神经网络,仅增加 0.02M 个参数,但能让 PSNR 提高 2dB。相比之下,普通 U-Net 的参数量高达 100M。
- 全面适用的能力:IDM 不仅适用于普通的 CS 任务,还可以用于图像修复、加速 MRI 以及稀疏视角 CT,并在这些任务上均取得了当前最好的效果,恢复质量更高,速度提升最高可达 14.54 倍。
总的来说,IDM 是一种结合了扩散模型和可逆神经网络的新方法,它在 CS 任务中兼顾了准确性、速度和显存效率,使得高质量图像重建变得更加高效可行。
翻译:
2 相关工作
2.1 深度端到端学习的图像 CS 网络
早期基于神经网络的 CS 研究首先采用全连接层将测量数据解码为图像。随后,引入卷积层和自注意力机制,使得残差块和 Transformer 等架构更高效地捕捉图像中的局部与长程依赖关系。这些技术推动了层次化和非局部架构的发展,提升了神经网络的表达能力。
近年来,一些研究利用测量信息 { y , A , γ } \{y, A, \gamma\} {y,A,γ} 设计了物理约束的 CS 神经网络。在这些方法中,深度展开方法将截断优化推理重新解释为迭代神经网络,开创了 CS 领域的新范式。相比之下,我们的工作引入了强大的扩散先验,避免了从零开始训练带来的高昂计算成本,同时提升了 CS 任务的恢复效率。
解释:
2 相关工作
2.1 深度学习驱动的 CS 方法
最早的 CS 研究使用简单的全连接网络来把测量数据转换回图像。后来,随着卷积和自注意力机制的引入,研究者发现可以用更高级的网络结构,比如残差块和 Transformer,使得网络可以更好地理解图像的局部细节和全局结构。
最近,一些方法开始结合物理知识,把测量数据 y y y、采样矩阵 A A A 和某些额外参数 γ \gamma γ 一起输入网络,以帮助模型更好地恢复图像。其中,“深度展开”方法受到优化算法的启发,将 CS 任务转化为多个迭代步骤,让神经网络模拟优化过程,从而提升恢复质量。
而我们的研究则走了一条新路:我们直接利用扩散模型的强大能力,作为图像恢复的先验信息,这样不仅减少了从零训练一个新模型的计算成本,还能让 CS 任务的恢复过程更加高效。
翻译:
2.2 基于扩散模型的图像重建
去噪扩散模型,特别是去噪扩散概率模型(DDPM),已经成为解决成像逆问题的有效生成先验。DDPM 采用一个
T
T
T 步的加噪过程:
x
t
=
α
t
x
t
−
1
+
1
−
α
t
ε
x_t = \sqrt{\alpha_t} \, x_{t-1} + \sqrt{1 - \alpha_t} \, \varepsilon
xt=αtxt−1+1−αtε
该过程可以等价地表示为:
x
t
=
α
ˉ
t
x
0
+
1
−
α
ˉ
t
ε
x_t = \sqrt{\bar{\alpha}_t} \, x_0 + \sqrt{1 - \bar{\alpha}_t} \, \varepsilon
xt=αˉtx0+1−αˉtε
这里采用了保持方差的随机微分方程(VP-SDE)形式。
x
t
x_t
xt 表示第
t
t
t 步的采样图像,该图像经过缩放并加入噪声,
ε
∼
N
(
0
N
,
I
N
)
\varepsilon \sim \mathcal{N}(0_N, I_N)
ε∼N(0N,IN) 是随机高斯噪声,
α
ˉ
t
=
∏
i
=
0
t
α
i
\bar{\alpha}_t = \prod_{i=0}^{t} \alpha_i
αˉt=∏i=0tαi 确定缩放因子,其中
α
t
=
1
−
β
t
\alpha_t = 1 - \beta_t
αt=1−βt,
β
t
∈
[
0
,
1
]
\beta_t \in [0,1]
βt∈[0,1] 是噪声调度参数,且
β
0
=
0
\beta_0 = 0
β0=0。
x
0
x_0
x0 采样自干净图像的分布
p
(
x
)
p(x)
p(x)。
利用一个预训练的神经网络
ε
Θ
\varepsilon_\Theta
εΘ,通过优化目标:
min
Θ
∥
ε
−
ε
Θ
(
α
ˉ
t
x
0
+
1
−
α
ˉ
t
ε
,
t
)
∥
2
2
\min_{\Theta} \|\varepsilon - \varepsilon_\Theta (\sqrt{\bar{\alpha}_t} \, x_0 + \sqrt{1 - \bar{\alpha}_t} \, \varepsilon, t) \|_2^2
Θmin∥ε−εΘ(αˉtx0+1−αˉtε,t)∥22
可以学习参数集合
Θ
\Theta
Θ。在给定初始点
x
^
T
\hat{x}_T
x^T 的情况下,去噪扩散隐式模型(DDIM)通过确定性采样策略加速图像生成:
x
^
t
−
1
=
α
ˉ
t
−
1
x
^
0
∣
t
+
1
−
α
ˉ
t
−
1
ε
^
t
\hat{x}_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \, \hat{x}_{0|t} + \sqrt{1 - \bar{\alpha}_{t-1}} \, \hat{\varepsilon}_t
x^t−1=αˉt−1x^0∣t+1−αˉt−1ε^t
其中:
x
^
0
∣
t
=
x
^
t
−
1
−
α
ˉ
t
ε
^
t
α
ˉ
t
\hat{x}_{0|t} = \frac{\hat{x}_t - \sqrt{1 - \bar{\alpha}_t} \, \hat{\varepsilon}_t}{\sqrt{\bar{\alpha}_t}}
x^0∣t=αˉtx^t−1−αˉtε^t
表示当前去噪后的图像,
ε
^
t
=
ε
Θ
(
x
^
t
,
t
)
\hat{\varepsilon}_t = \varepsilon_\Theta (\hat{x}_t, t)
ε^t=εΘ(x^t,t) 是网络估计的噪声。
最近的研究将图像重建视为测量约束下的图像生成任务。一些零样本扩散求解器已利用奇异值分解(SVD)、流形约束、后验采样、范围-零空间分解(RND)以及伪逆运算来恢复不同类型的退化图像。然而,目前尚无专门针对自然图像 CS 任务的扩散模型。尽管已有方法可应用于 CS,但其噪声估计 U-Net 仅针对单步噪声估计进行预训练(见图 1(b))。我们的工作克服了这一限制,通过端到端学习使扩散采样与 CS 任务对齐,提高了重建性能并减少了所需的采样步数。
解释:
2.2 基于扩散模型的图像重建
扩散模型是一种强大的图像生成技术,特别是 DDPM 这样的模型,已经被用作解决图像重建问题的先验知识。它的基本思想是,从一张干净的图像 x 0 x_0 x0 开始,不断加入噪声,使其变得模糊,最终变成纯噪声。然后,通过反向去噪过程,逐步恢复出原始图像。
在数学上,扩散模型的加噪过程如下:
x
t
=
α
t
x
t
−
1
+
1
−
α
t
ε
x_t = \sqrt{\alpha_t} \, x_{t-1} + \sqrt{1 - \alpha_t} \, \varepsilon
xt=αtxt−1+1−αtε
这意味着在每一步,我们对图像进行缩放,并加入一小部分噪声。经过
T
T
T 步之后,图像变得完全不可辨认。
恢复图像时,我们使用一个神经网络
ε
Θ
\varepsilon_\Theta
εΘ 来预测噪声,并通过如下公式去除噪声:
x
^
t
−
1
=
α
ˉ
t
−
1
x
^
0
∣
t
+
1
−
α
ˉ
t
−
1
ε
^
t
\hat{x}_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \, \hat{x}_{0|t} + \sqrt{1 - \bar{\alpha}_{t-1}} \, \hat{\varepsilon}_t
x^t−1=αˉt−1x^0∣t+1−αˉt−1ε^t
这里
x
^
0
∣
t
\hat{x}_{0|t}
x^0∣t 是当前去噪后的图像,而
ε
^
t
\hat{\varepsilon}_t
ε^t 是神经网络预测出的噪声。
最近的研究表明,扩散模型不仅可以用来生成新图像,还可以用于图像恢复任务,比如从不完整的测量数据中重建原始图像。例如,一些方法使用奇异值分解(SVD)或数学优化方法来解决退化问题。但是,目前还没有专门针对 CS 任务的扩散模型。
现有方法虽然可以应用于 CS,但它们的神经网络只会估计单步的噪声,不能很好地适应 CS 任务。而我们的研究突破了这一点,我们让扩散模型的采样过程与 CS 任务结合,采用端到端的方式进行优化。这使得我们的模型不仅能提升重建质量,还能减少所需的计算步骤,大幅加速推理过程。
图 1. 提出的 IDM 与先前方法的对比。 (a) 传统的基于神经网络的方法从零开始设计并训练新的 CS 神经网络架构,这限制了它们在短时间内快速部署的能力,难以实现更高性能。 (b) 传统的基于扩散的图像重建方法训练一个单步噪声估计 UNet,并将其作为一个现成的神经网络模块用于迭代采样。该估计器无法感知从测量到图像的完整恢复过程,从而降低了对 CS 任务的适应性。 © 我们的可逆扩散模型 (IDM) 在大规模、预训练的扩散采样过程中进行微调,使其能够直接从 CS 测量中端到端地预测原始图像,在提升性能的同时减少所需的采样步数(贡献 1)。此外,我们使采样过程和噪声估计 UNet 可逆,在裁剪后的噪声估计 UNet 中加入测量注入器,从而显著提升性能,同时大幅降低训练时的 GPU 内存占用和运行时间(贡献 2 和 3)。 其中,(a)、(b) 和 © 分别对应表 5 中的 (12)、(1) 和 (9)。更多细节请参见第 4.3 节。
解释
这段内容主要讨论了一种新的图像恢复方法——可逆扩散模型 (IDM),并将其与两种传统方法进行了比较。
- 传统方法 1 (a):直接训练一个新的神经网络来进行 CS(压缩感知)图像恢复。这种方法需要从零开始设计和训练模型,虽然灵活性高,但训练成本大,且难以在短时间内实现高性能。
- 传统方法 2 (b):基于扩散模型的方法通常训练一个单步噪声估计 UNet,并将其用于迭代恢复图像。然而,这种方法的 UNet 只关注每一步的噪声估计,并不了解整个从测量数据到最终图像的恢复过程,因此适应性较差。
- 新方法 IDM ( c):我们提出的 IDM 通过微调一个大规模预训练的扩散模型,使其可以直接从 CS 测量数据预测原始图像。这种方法不仅提升了恢复性能,还减少了所需的采样步骤。此外,我们让噪声估计 UNet 变得可逆,并在其中加入测量注入器,这样一来,既提高了性能,又降低了训练时的 GPU 占用和运行时间,使得整个方法更加高效。
图 2. 我们提出的IDM框架的示意图。该框架接收初始图像估计 x ^ T \hat{x}_T x^T 并学习 T T T 次扩散采样步骤进行端到端的恢复。辅助连接(如红色箭头所示)使得框架可逆,并促进了强大的大规模预训练 SD 模型的重用。
解释
图 2 展示了我们提出的IDM框架。这个框架的工作方式是先从一个初步的图像估计值 x ^ T \hat{x}_T x^T 开始,然后通过学习多个扩散采样步骤,逐步恢复图像,直到得到最终结果。框架中有一些辅助连接(用红色箭头表示),它们的作用是确保框架具有可逆性,同时也使得可以重用一些强大的、大规模的预训练模型,这些模型在训练过程中已经学到了大量的知识。
翻译
2.3 可逆神经网络在视觉任务中的应用
可逆神经网络(Invertible NNs),即数学上可逆的函数,是一种可以从输出重建输入的神经网络。最初,它们被用于图像生成。后来的研究发现,与非可逆神经网络需要缓存所有中间激活值以计算梯度不同,可逆神经网络允许大多数特征被释放并根据需要重新计算,从而减少了内存需求。随后,提出了各种可逆架构,包括卷积神经网络、递归神经网络、图神经网络以及变换器。它们的应用扩展到了图像重建和图像编辑,并在自编码器的潜在空间中实现了即时优化。可逆神经网络内存高效的特性对于大规模扩散模型的端到端训练尤为有利。在这项工作中,我们提出了一种新颖的双层可逆设计,用于以最低的内存成本对大规模预训练的扩散采样过程进行端到端的微调,使其在有限的GPU资源下变得可行。
解释
可逆神经网络是一种特殊类型的神经网络,它能够通过输出重新恢复输入。最初,它们被用来生成图像。与一般神经网络不同,后者需要保存中间的计算结果以计算梯度,增加了内存负担,而可逆神经网络则能够在需要时重新计算中间结果,这样就能节省内存。研究人员提出了多种不同的可逆神经网络架构,包括卷积神经网络、递归神经网络和变换器等,广泛应用于图像重建、编辑等任务。由于它们在训练过程中更节省内存,特别适合于需要大量计算资源的大规模模型训练。在这项工作中,我们提出了一种创新的双层可逆设计,使得在有限的GPU资源下,也能高效地对大规模预训练的扩散模型进行端到端的微调。
翻译
3 方法
3.1 初步工作
去噪扩散零空间模型(DDNM)及其局限性。DDNM 是一种最先进的、无需训练的图像恢复方法,它采用预训练的噪声估计器 $ \varepsilon_\Theta $ 作为生成先验,并通过迭代以下三个 DDIM 子步骤来解决 CS 问题:
x
^
0
∣
t
=
x
^
t
−
1
−
α
ˉ
t
ε
Θ
(
x
^
t
,
t
)
α
ˉ
t
,
(1)
\hat{x}_0|t = \hat{x}_t - \frac{\sqrt{1 - \bar{\alpha}_t} \, \varepsilon_\Theta(\hat{x}_t, t)}{\sqrt{\bar{\alpha}_t}}, \tag{1}
x^0∣t=x^t−αˉt1−αˉtεΘ(x^t,t),(1)
x
ˉ
0
∣
t
=
A
†
y
+
(
I
N
−
A
†
A
)
x
^
0
∣
t
,
(2)
\bar{x}_0|t = A^\dagger y + (I_N - A^\dagger A) \hat{x}_0|t, \tag{2}
xˉ0∣t=A†y+(IN−A†A)x^0∣t,(2)
x
^
t
−
1
=
α
ˉ
t
−
1
x
ˉ
0
∣
t
+
1
−
α
ˉ
t
−
1
ε
Θ
(
x
^
t
,
t
)
.
(3)
\hat{x}_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \, \bar{x}_0|t + \sqrt{1 - \bar{\alpha}_{t-1}} \, \varepsilon_\Theta(\hat{x}_t, t). \tag{3}
x^t−1=αˉt−1xˉ0∣t+1−αˉt−1εΘ(x^t,t).(3)
在公式 (1) 中,预测了去噪后的图像,而公式 (2) 应用了 RND 理论以确保测量一致性 $ A \bar{x}0|t = AA^\dagger y + A(I_N - A^\dagger A) \hat{x}0|t \equiv y $。最后,公式 (3) 执行了确定性的 DDIM 采样步骤,其中 $ A^\dagger \in \mathbb{R}^{N \times M} $ 是 CS 采样矩阵 $ A $ 的伪逆。然而,DDNM 的性能受到任务转移的限制,即从在 DDPM 中预训练 $ \varepsilon\Theta $ 以进行噪声估计,到在 CS 中应用该估计器的转变。$ \varepsilon\Theta $ 中的深度特征不一定为将 $ y $ 映射到 $ x $ 而优化。类似的挑战也存在于其他基于扩散的方法中,包括零-shot 求解器和条件模型。
3.2 为 CS 学习扩散采样的端到端方法
基于扩散的端到端 CS 学习框架。我们假设,直接将 DDNM 的步骤拟合到从 $ y $ 到 $ x $ 的恢复映射(即 $ y \rightarrow x $ )可以缓解任务转移问题并提升最终性能。为此,我们构建了一个基于 DDNM 的 CS 重建框架,将 DDNM 的采样过程重用为一个 T 层神经网络 $ F = F_1 \circ F_2 \circ \cdots \circ F_T $,其中每一层
x
^
t
−
1
=
F
t
(
x
^
t
;
y
,
A
)
\hat{x}_{t-1} = F_t (\hat{x}_t; y, A)
x^t−1=Ft(x^t;y,A) 表示一个单一的采样步骤,包含公式 (1) 到 (3),其中 $ \circ $ 表示顺序层的组合。我们的 IDM 框架微调了扩散参数 $ {\alpha_t} $ 和预训练的 $ \varepsilon_\Theta $ 权重。它通过优化深度特征,最小化估计的图像 $ \hat{x} = \hat{x}_0 = F(\hat{x}_T; y, A) $ 与真实图像 $ x $ 之间的差异,使用 L1 损失
L
(
x
^
,
x
)
=
1
N
∥
x
^
−
x
∥
1
L(\hat{x}, x) = \frac{1}{N} \|\hat{x} - x\|_1
L(x^,x)=N1∥x^−x∥1 和标准反向传播。该方法使得对整个 CS 恢复过程具有更好的适应性,而不仅仅是噪声估计,提升了性能,并引入了与求解器和文本提示方法发展相互独立的新收益。
CS 重建的初始化策略。与典型的扩散模型从随机噪声采样或使用神经网络估计初始结果不同,我们提出了一种简单而有效的图像初始化方法,计算期望值 x ^ T = E ε ( α ˉ T x ^ 0 ′ + 1 − α ˉ T ε ) = α ˉ T A † y \hat{x}_T = E_\varepsilon \left( \sqrt{\bar{\alpha}_T} \hat{x}_0^\prime + \sqrt{1 - \bar{\alpha}_T} \varepsilon \right) = \sqrt{\bar{\alpha}_T} A^\dagger y x^T=Eε(αˉTx^0′+1−αˉTε)=αˉTA†y 通过反向投影 x ^ 0 ′ = A † y ∈ arg min x ∥ A x − y ∥ 2 2 \hat{x}_0^\prime = A^\dagger y \in \arg \min_x \|A x - y\|_2^2 x^0′=A†y∈argxmin∥Ax−y∥22。该策略通过低计算成本提高了重建质量,优于噪声初始化的对比方法。
解释
这段话主要讨论了一种新的图像恢复方法,基于扩散模型的端到端学习框架,来解决压缩感知(CS)问题。
-
DDNM 方法及其局限性:DDNM 是一种训练-free 的图像恢复方法,它使用一个预训练的噪声估计器来帮助恢复图像。它通过一系列的步骤,包括去噪、应用 RND 理论确保测量一致性、以及最后的 DDIM 采样步骤来恢复图像。然而,DDNM 在将噪声估计方法从 DDPM(去噪扩散模型)转移到 CS 恢复任务时面临挑战,因为噪声估计器并没有专门优化去恢复图像,因此它在一些情况下表现不佳。
-
新的端到端学习框架:为了提高性能,作者提出直接将 DDNM 的步骤用于 CS 图像恢复任务,构建了一个端到端的学习框架。这种方法通过微调扩散参数和噪声估计器的权重,使得模型能够更好地适应整个 CS 恢复过程,而不仅仅是噪声估计,从而提升性能。
-
初始化策略:为了更好地启动恢复过程,作者提出了一种初始化图像的新方法。与传统方法通过随机噪声或神经网络初始化不同,新的方法通过计算一个期望值来初始化图像,进一步提高了重建质量,并且计算成本较低。
好的,我现在需要处理用户的请求。用户提供了一段关于图像恢复的学术性内容,要求先翻译成中文,再做通俗解释,并且需要将所有符号和公式用美元符号包裹,不要参考文献。
首先,我得通读原文,确保理解每个部分的内容。原文主要讲的是DDNM模型及其局限性,然后提出了一种端到端的扩散采样方法来解决压缩感知(CS)问题。接下来,我需要准确翻译这些技术术语和数学公式,保持专业性的同时让中文读者易懂。
翻译过程中要注意,比如“DDIM”应该保留全称并在首次出现时注明缩写,如“确定性扩散隐马尔可夫模型(DDIM)”。数学公式的转换要小心,确保LaTeX语法正确,例如方程中的变量和运算符都要正确使用美元符号包裹。例如,原文中的KaTeX parse error: Got function '\hat' with no arguments as superscript at position 3: x^\̲h̲a̲t̲{0}|t在翻译中可能需要调整为更符合中文习惯的表达方式,但用户要求保留符号,所以直接按原样翻译并包裹即可。
接下来是通俗解释部分。这里需要将技术内容转化为更易懂的语言,避免使用过多专业术语。例如,解释DDNM是什么,为什么它在任务迁移上有问题,以及提出的端到端方法如何解决这些问题。同时,要说明初始化策略的优势,比如为什么使用投影估计而不是随机噪声,这样能帮助读者理解改进点在哪里。
还要注意用户提到的格式要求:所有符号和公式必须用美元符号包裹,例如将 α t \alpha_t αt写成 α t \alpha_t αt。检查是否有遗漏的符号或公式,确保每个都正确包裹。另外,用户强调不要参考文献,因此翻译后的内容中不应包含任何引用标记,如[39]等。
在翻译过程中可能会遇到一些术语选择的问题,比如“generative prior”翻译成“生成先验”是否合适,或者是否有更贴切的中文表达。需要根据上下文进行合理选择,确保术语的一致性。此外,数学公式中的操作符如“†”代表伪逆矩阵,这一点需要在必要时进行解释,但在公式中保持原符号即可。
最后,检查整个翻译和解释是否符合用户的要求,没有遗漏任何部分,特别是初始化策略和端到端学习框架的部分。确保通俗解释部分逻辑清晰,能够让非专业人士大致理解该方法的优势和原理。
嗯,用户之前让我翻译了一段关于DDNM和其改进方法的学术内容,并且要求用KaTeX格式。他们现在报告了几个KaTeX解析错误,特别是在使用\hat命令时没有参数。我需要仔细检查之前的回复,找出哪里出错了。
首先,查看用户提供的错误信息。例如,第一个错误出现在位置6:“x^\̲h̲a̲t̲{0}|t”,看起来像是\hat后面没有跟任何参数,导致KaTeX无法正确解析。这可能是因为在LaTeX代码中,\hat后面应该有一个花括号包裹的内容,比如\hat{x},而用户可能漏掉了花括号或者里面的内容。
接下来,我需要回顾之前的翻译回复,找到所有使用\hat的地方。例如,在翻译的方程式中:
原句中的“xˆ0|t”被翻译成“x\hat{0}|t”。正确的写法应该是“x{\hat{0}}|t”或者更常见的“\hat{x}^0|t”,不过通常情况下,上标的位置可能会有不同的习惯。但根据用户提供的例子,比如他们自己写的公式 x 0 ∼ q ( x ) x_0 \sim q(x) x0∼q(x),说明他们希望保持原文中的符号结构,只是替换成KaTeX语法。
可能的错误点在于,用户可能在输入时使用了类似“x\hat{0}|t”,而正确的应该是“x{\hat{0}}|t”或者“\hat{x}0|t”。但根据用户给出的示例,比如在翻译中将“xˆ0|t”写成“x\hat{0}|t”,但实际上应该用花括号包裹指数部分,即“x^{\hat{0}}|t”。因此,用户在转换过程中可能遗漏了花括号,导致\hat后面没有参数,从而引发错误。
同样地,其他出现类似问题的地方也需要检查,比如“x\hat{t}”应改为“x{\hat{t}}”,“x\hat{t-1}”改为“x{\hat{t-1}}”等。此外,还需要确认是否有其他符号或公式存在类似的格式错误。
另外,用户提到在公式中使用\tag{},可能需要检查标签是否正确放置,以及是否有其他语法错误。例如,方程(2)中的标签是否正确闭合,是否存在未闭合的花括号或其他符号错误。
总结来说,用户的问题是由于在将LaTeX公式转换为KaTeX时,部分\hat命令缺少必要的参数,导致解析错误。需要逐一检查所有涉及\hat的部分,确保每个\hat后都有正确的参数,并用花括号包裹。例如,将“x\hat{0}|t”改为“x{\hat{0}}|t”或者根据上下文调整结构,确保指数部分正确应用。
发现公式中存在 \hat
命令缺少参数 的格式错误(需补全花括号包裹的上标内容)。以下是修正后的版本:
翻译
3 方法
3.1 初步去噪扩散零空间模型(DDNM)及其局限性
DDNM[39]是一种无需训练的先进图像恢复方法,它采用预训练的噪声估计器
ϵ
Θ
\epsilon_\Theta
ϵΘ作为生成先验,并通过迭代以下三个DDIM子步骤来解决压缩感知(CS)问题:
x
0
^
∣
t
=
x
t
^
−
1
−
α
ˉ
t
ϵ
Θ
(
x
t
^
,
t
)
α
ˉ
t
(1)
x^{\hat{0}\vert t} = x^{\hat{t}} - \sqrt{1 - \bar{\alpha}_t} \frac{\epsilon_\Theta(x^{\hat{t}}, t)}{\sqrt{\bar{\alpha}_t}} \tag{1}
x0^∣t=xt^−1−αˉtαˉtϵΘ(xt^,t)(1)
x
ˉ
0
∣
t
=
A
†
y
+
(
I
N
−
A
†
A
)
x
0
^
∣
t
(2)
\bar{x}^0\vert t = A^\dagger y + (I_N - A^\dagger A)x^{\hat{0}\vert t} \tag{2}
xˉ0∣t=A†y+(IN−A†A)x0^∣t(2)
x
t
−
1
^
=
α
ˉ
t
−
1
x
ˉ
0
∣
t
+
p
1
−
α
ˉ
t
−
1
ϵ
Θ
(
x
t
^
,
t
)
(3)
x^{\hat{t-1}} = \sqrt{\bar{\alpha}_{t-1}} \bar{x}^0\vert t + p_{1 - \bar{\alpha}_{t-1}} \epsilon_\Theta(x^{\hat{t}}, t) \tag{3}
xt−1^=αˉt−1xˉ0∣t+p1−αˉt−1ϵΘ(xt^,t)(3)
其中,式(1)预测去噪图像,式(2)基于随机噪声理论(RND)[46]、[67]确保测量一致性
A
x
ˉ
0
∣
t
=
y
A\bar{x}^0\vert t = y
Axˉ0∣t=y,式(3)执行确定性DDIM采样步骤。
A
†
∈
R
N
×
M
A^\dagger \in \mathbb{R}^{N \times M}
A†∈RN×M 是CS采样矩阵
A
A
A 的伪逆。然而,DDNM的性能受限于其预训练目标(在DDPM中估计噪声)与应用目标(CS恢复)之间的任务偏移。
ϵ
Θ
\epsilon_\Theta
ϵΘ 的深层特征未必优化了从
y
y
y 到
x
x
x 的映射。类似挑战也存在于其他扩散方法中,包括零样本求解器[34]和条件模型[24]、[52]。
3.2 端到端学习扩散采样用于CS
扩散基端到端CS学习框架
我们假设直接将DDNM的步骤适配到映射
y
↦
x
y \mapsto x
y↦x 的端到端过程中,可以缓解任务偏移问题并提升性能。为此,我们构建了一个基于DDNM的CS重建框架,将DDNM的采样过程重构成包含
T
T
T 层的神经网络
F
=
F
1
∘
F
2
∘
⋯
∘
F
T
F = F_1 \circ F_2 \circ \cdots \circ F_T
F=F1∘F2∘⋯∘FT,其中每层
x
t
−
1
^
=
F
t
(
x
^
t
;
y
,
A
)
x^{\hat{t-1}} = F_t(\hat{x}^t; y, A)
xt−1^=Ft(x^t;y,A) 表示包含式(1)-(3)的单次采样步骤。IDM框架联合微调扩散参数
{
α
t
}
\{\alpha_t\}
{αt} 和
ϵ
Θ
\epsilon_\Theta
ϵΘ 的预训练权重,通过最小化估计值
x
^
=
x
0
=
F
(
x
^
T
;
y
,
A
)
\hat{x} = x^0 = F(\hat{x}^T; y, A)
x^=x0=F(x^T;y,A) 与真实值
x
x
x 之间的L1损失
L
(
x
^
,
x
)
=
1
N
∥
x
−
x
^
∥
1
L(\hat{x}, x) = \frac{1}{N}\|x - \hat{x}\|_1
L(x^,x)=N1∥x−x^∥1,并采用标准反向传播[68]进行优化。这种方法使模型能够全面适应完整的CS恢复过程,不仅限于噪声估计任务,从而带来独立于传统求解器和文本提示[69]的性能增益。
CS重建的初始化策略
与典型扩散模型(从随机噪声或神经网络估计初始结果[70])不同,我们提出了一种简单高效的图像初始化策略:通过计算投影估计
x
^
0
′
=
A
†
y
∈
arg
min
x
∥
A
x
−
y
∥
2
2
\hat{x}'_0 = A^\dagger y \in \arg \min_x \|Ax - y\|_2^2
x^0′=A†y∈argminx∥Ax−y∥22,得到期望值
x
^
T
=
α
ˉ
T
x
^
0
′
+
1
−
α
ˉ
T
ϵ
\hat{x}^T = \sqrt{\bar{\alpha}_T} \hat{x}'_0 + \sqrt{1 - \bar{\alpha}_T} \epsilon
x^T=αˉTx^0′+1−αˉTϵ。该策略在低计算成本下提升了低信噪比场景的重建质量,优于基于噪声的初始化方法。
通俗解释
3.1 DDNM是什么?有什么缺点?
DDNM是一种很厉害的"拍照修图"方法,不需要专门训练就能从模糊照片(压缩后的信号)里还原清晰图片。它用了一个提前训练好的"去噪器" ϵ Θ \epsilon_\Theta ϵΘ来帮忙生成图像。具体操作分三步:
- 猜细节:根据当前模糊图像,预测下一步能恢复的细节部分;
- 保一致性:确保生成的图像和原始测量数据(比如摄像头拍到的模糊信号)匹配;
- 迭代优化:不断重复前两步直到图像变清晰。
但这个方法有个大问题:它的"去噪器"原本是在完全不同的任务(图像去噪)里训练的,直接拿来做压缩感知可能不太合适——就像用学开车的AI去修汽车发动机,虽然都是"驾驶"相关的,但具体技能不匹配。
3.2 我们怎么改进?
我们提出了一个端到端的训练方法,直接教DDNM把模糊信号变成清晰图像:
• 当个"学徒":让DDNM像搭积木一样,把原来的三个步骤变成一个深度神经网络。每一步都像给图片添加一层细节,总共叠
T
T
T层;
• 统一调教:同时调整网络的参数(每层怎么处理图像)和预训练的"去噪器",让它们学会从模糊信号一步步长出完整图像;
• 损失函数:用简单的方法(L1损失)比较生成的图像和真实图像,不断纠正错误。
这样做的好处是,整个系统从头到尾都为压缩感知任务优化,而不是用其他任务的"半成品"工具凑合。
3.3 怎么开始这个过程?
传统方法要么随便猜一张白纸当起点,要么用复杂网络生成初始图像。我们发现最简单的办法反而是最好的:
x
^
T
=
α
ˉ
T
⋅
(
A
†
y
)
+
1
−
α
ˉ
T
⋅
ϵ
\hat{x}^T = \sqrt{\bar{\alpha}_T} \cdot (A^\dagger y) + \sqrt{1 - \bar{\alpha}_T} \cdot \epsilon
x^T=αˉT⋅(A†y)+1−αˉT⋅ϵ
这里
A
†
y
A^\dagger y
A†y相当于数学上的"最佳猜测"(最接近模糊信号的清晰图像),加上一点随机扰动
ϵ
\epsilon
ϵ来启动扩散过程。这个方法计算量小,而且效果比随机猜好很多,特别适合信号很弱的时候。
好的,我现在需要处理用户的这个请求。用户提供了一段关于两层可逆设计的学术内容,要求先翻译成中文,再用通俗语言解释,而且不要参考文献。同时,所有符号和公式必须用美元符号包裹,比如数学公式要用$$包围,变量也要正确使用斜体。
首先,我得仔细阅读原文,确保理解技术内容。用户提到的两层可逆设计主要是为了解决内存问题,特别是在端到端训练扩散采样过程中,当步骤数T增加时,GPU内存不足的问题。他们提出了两种可逆设计:多步扩散采样的可逆性和噪声估计器εΘ的可逆性。
接下来翻译部分需要注意专业术语的正确对应,比如“invertible NNs”翻译成“可逆神经网络”,“memory efficiency”是“内存效率”。公式部分要逐个检查,确保所有变量和符号都正确用LaTeX表示,比如 x 0 ^ ∣ t x^{\hat{0}|t} x0^∣t这样的表达式是否正确包裹在美元符号里。用户之前提到过之前的错误,所以这里要特别注意是否有遗漏的花括号或者符号错误。
然后是通俗解释部分。这部分需要将技术内容转化为更容易理解的日常用语。比如,解释为什么内存会成为问题,两层可逆设计如何分别解决不同层次的内存消耗。可能需要用比喻,比如把神经网络比作积木,可逆设计就像重新排列积木使得它们占用更少的空间。
还要注意用户提到的具体例子,比如使用SD v1.5 U-Net backbone在4块A100 GPU上训练时内存不足的问题,说明他们的方法如何通过可逆设计降低内存占用,使其可行。此外,用户提到两个优点:适用于任意扩散模型和复用预训练权重,这些都要在解释中明确点出。
在检查过程中,要确保没有遗漏任何关键点,特别是两层设计的不同作用。第一层处理多步采样的可逆性,第二层处理噪声估计器的U-Net结构中的内存优化。同时,要确认所有数学公式的正确性,例如正向和逆向计算的公式是否正确转换,变量替换是否准确。
最后,整合翻译和通俗解释,确保语言流畅自然,没有技术术语堆砌,让用户即使没有专业知识也能理解主要内容。还要注意格式要求,比如不要使用参考文献标记,所有符号正确包裹,段落结构清晰。
翻译
3.3 两级可逆设计以提升内存效率
我们的端到端训练方案虽然提升了性能,但随着扩散步骤数 T T T的增加以及噪声估计器 ϵ Θ \epsilon_\Theta ϵΘ的庞大参数量(因其需要缓存中间特征进行反向传播),可能导致GPU内存不足。例如,在4块NVIDIA A100 GPU(总内存80GB)上,直接训练包含3步扩散采样和SD v1.5 U-Net主干网络的端到端模型是不可行的。为解决这一问题,我们利用可逆神经网络的内存高效性,提出了一种新颖的两级可逆设计,使得以下两部分均可逆:
- 多步扩散采样框架
- 每步中的噪声估计器 ϵ Θ \epsilon_\Theta ϵΘ
第一级可逆性:多步扩散采样框架的可逆性
受[38]、[72]启发,我们通过在采样步骤间引入新的连接实现可逆性(如图3所示)。每个连接将当前步骤
F
t
F_t
Ft的输出
x
^
t
\hat{x}^t
x^t传输到下一层
F
t
−
1
F_{t-1}
Ft−1的输出
x
^
t
−
2
\hat{x}^{t-2}
x^t−2。我们引入两个可学习权重标量
u
t
u_t
ut和
v
t
v_t
vt(满足
u
t
+
v
t
=
1
u_t + v_t = 1
ut+vt=1),分别对当前步骤的输出和传输的数据进行缩放,并将二者融合得到
x
^
t
−
1
\hat{x}^{t-1}
x^t−1。此外,引入辅助变量
h
t
h_t
ht将每层转换为可逆模块,使得可通过第二条路径从输出
{
x
^
t
−
1
,
h
t
−
1
}
\{\hat{x}^{t-1}, h_{t-1}\}
{x^t−1,ht−1}恢复输入
{
x
t
,
h
t
}
\{x^t, h_t\}
{xt,ht}。数学上,每层的前向和逆向计算如下:
前向计算:
{
x
^
t
−
1
=
u
t
F
t
(
x
^
t
;
y
,
A
)
+
v
t
h
t
,
h
t
−
1
=
x
^
t
.
(4)
\begin{cases} \hat{x}^{t-1} = u_t F_t(\hat{x}^t; y, A) + v_t h_t, \\ h_{t-1} = \hat{x}^t. \end{cases} \tag{4}
{x^t−1=utFt(x^t;y,A)+vtht,ht−1=x^t.(4)
逆向计算:
{
x
^
t
=
h
t
−
1
,
h
t
=
x
^
t
−
1
−
u
t
F
t
(
x
^
t
;
y
,
A
)
v
t
.
(5)
\begin{cases} \hat{x}^t = h_{t-1}, \\ h_t = \frac{\hat{x}^{t-1} - u_t F_t(\hat{x}^t; y, A)}{v_t}. \end{cases} \tag{5}
{x^t=ht−1,ht=vtx^t−1−utFt(x^t;y,A).(5)
为保持框架输入输出维度的一致性,我们在开始和结束处引入两个可学习标量
w
T
w_T
wT和
w
0
w_0
w0,分别计算输入
h
T
=
w
T
x
^
T
h_T = w_T \hat{x}^T
hT=wTx^T和最终输出
x
^
=
x
^
0
+
w
0
h
0
\hat{x} = \hat{x}^0 + w_0 h_0
x^=x^0+w0h0。如图3(b)、©所示,在前向传播时仅缓存最终输出的中间层结果,释放所有中间特征。计算损失函数
L
L
L后,通过逐层反向传播(从
{
x
^
0
,
h
0
}
\{\hat{x}^0, h_0\}
{x^0,h0}到
{
x
^
T
,
h
T
}
\{\hat{x}^T, h_T\}
{x^T,hT}),基于每层的输出
x
^
t
−
1
\hat{x}^{t-1}
x^t−1、辅助变量
h
t
−
1
h_{t-1}
ht−1及其对
L
L
L的偏导数
∂
L
/
∂
x
^
t
−
1
\partial L / \partial \hat{x}^{t-1}
∂L/∂x^t−1和
∂
L
/
∂
h
t
−
1
\partial L / \partial h_{t-1}
∂L/∂ht−1,重新计算每层的输入、必要特征和参数梯度。通过这种方式,我们逐层清除缓存的特征和输出,将框架的内存占用从线性复杂度
O
(
T
)
O(T)
O(T)降至常数复杂度
O
(
1
)
O(1)
O(1)(假设采样子步骤和噪声估计器
ϵ
Θ
\epsilon_\Theta
ϵΘ的结构已预先确定)。这一设计具有两大优势:
- 可应用于任意扩散模型和求解器,无需设计新神经网络;
- 复用预训练的 ϵ Θ \epsilon_\Theta ϵΘ权重,并通过合理设置 u t u_t ut和 v t v_t vt实现微调。
第二级可逆性:每步噪声估计器的可逆性
在扩散求解器中,噪声估计器 ϵ Θ \epsilon_\Theta ϵΘ通常采用U-Net架构[73],包含多个下采样/上采样块中的主分支和跳跃连接。这些块包含许多内存密集型变换(如残差连接和自注意力层)。为了进一步提升内存效率,我们将可逆设计扩展到每一步的U-Net块中。如图4(a)所示,我们对每个下采样/上采样块内的连续变换进行分组并建立连接,使其可逆。训练时,清除这些分组块的所有输入和中间激活值,仅保留首个/最后一个卷积层和跳跃连接的激活值用于反向传播。这一第二级可逆设计进一步降低了内存占用,使得IDM训练可在消费级GPU上完成。
通俗解释
3.3 为什么需要省内存的设计?如何做到?
虽然我们的端到端方法效果更好,但有个大问题:显卡内存不够用。特别是当扩散步骤 T T T变大或者模型本身很大时(比如用SD v1.5 U-Net),中间过程需要缓存大量临时数据,导致像4块A100 GPU(总内存80GB)都装不下。为此,我们设计了两种省内存的技巧:
技巧一:让扩散步骤"倒着走"
想象你要组装乐高积木搭房子,传统方法是按顺序一块块搭完再拆掉。但如果我们一边搭一边记录每一步的位置,最后可以直接从顶层往下拆,就能省下中间过程的存储空间。
具体来说:
- 前向过程:每一步不仅生成当前图像,还会记录一个"线索"( h t h_t ht);
- 逆向过程:根据最终结果和线索,反向推导出每一步的输入。
这样一来,显卡只需要保存最终的线索和结果,而不需要记住所有中间步骤的图像,内存占用从 O ( T ) O(T) O(T)降到 O ( 1 ) O(1) O(1)。
技巧二:给U-Net"瘦身"
U-Net这种网络结构有很多分支(主分支和跳跃连接),每个分支都会占用内存。我们通过以下方式减少内存使用:
- 将连续的几个操作(如下采样中的一组卷积)当作一个整体处理;
- 训练时只保留每个整体的首尾部分和跳跃连接的值,中间过程全部清空。
这就像用快递打包:你不需要记住每个包裹的内部结构,只要知道箱子怎么组合就行。
两大优势
- 通用性强:这套方法不依赖特定模型,任何扩散方法和网络结构都能用;
- 复用老模型:直接用预训练的U-Net权重(比如SD v1.5的参数),只需微调少数新参数(
u
t
,
v
t
u_t, v_t
ut,vt等)。
最终效果是:在普通显卡上也能训练复杂的扩散模型,而且内存占用极低。
好的,我现在需要处理用户的请求。用户提供了一段关于图3的描述,要求先翻译成中文,再用通俗的语言解释,同时注意符号和公式的格式。首先,我要仔细阅读原文,理解其中的技术内容,尤其是关于可逆设计和内存管理的部分。
用户之前已经有过多次类似的请求,特别是在处理技术文档的翻译和解释时,所以需要保持一致的格式和风格。用户强调不要参考文献,所以翻译时要避免引用文献编号。此外,用户特别指出要将所有符号和公式用美元符号包裹,这一点必须严格遵守,以避免KaTeX解析错误。
接下来,翻译部分需要准确传达原文的技术细节,比如“wiring technique”、“invertible layers”等术语。同时,要注意图表的描述,如图3(a)、(b)、©的不同情况,以及它们在内存使用上的对比。在通俗解释部分,需要将这些技术概念转化为更容易理解的比喻,比如用搭乐高积木来类比前向和逆向过程,帮助读者形象化理解内存优化的机制。
需要注意的是,用户提到的“light-colored rectangles with diagonal dashed lines”和“dark-colored, empty rectangles”这些视觉元素,在翻译时要准确对应,可能需要用中文的比喻来替代,比如“浅色带斜线的矩形”代表被清除的数据,“深色空心矩形”代表保留的数据。此外,用户之前已经纠正过公式中的错误,所以在翻译新的内容时,要仔细检查是否有类似的格式问题,比如缺少花括号或变量符号错误。
在处理过程中,还要确保术语的一致性,例如“可逆设计”和“内存效率”等词汇在前后文中保持统一。同时,用户可能希望解释部分能够突出技术的优势,比如为什么这种方法能节省内存,如何实现等,需要用简洁明了的语言表达出来,避免过于专业的术语,让非技术人员也能理解。
最后,要检查整个翻译和解释是否符合用户的所有要求:没有参考文献,正确的符号格式,清晰的段落划分,以及准确的术语使用。确保没有遗漏任何关键点,比如线性内存增长与常数内存的对比,以及训练过程中的逐层反向传播机制。完成这些步骤后,再通读一遍,确保语言流畅,没有语法错误,符合用户的质量要求。
图3. 我们的可逆接线技术示意图,以三步扩散采样和三尺度噪声估计U-Net为例。图中浅色带对角线的矩形表示被清除的图像/特征,深色空心矩形表示需保留的内容。
(a) 原始不可逆前向传播会缓存所有输入、特征和输出,导致内存随步数
T
T
T线性增长;
(b) 通过添加连接构建可逆层,将内存占用降至常数级别;
© 在反向传播时,按顺序重新计算并清除必要的中间输入/特征,以从最后一步到第一步获取梯度。当
u
t
=
1
u_t=1
ut=1且
v
t
=
0
v_t=0
vt=0时,我们的有线采样框架等效于原始设置(a)。
解释
图3是什么?为什么这样设计能省内存?
想象你要用乐高积木搭一座城堡:
- 原始方法(图a):每搭一块积木都要拍张照片存起来,最后内存会被所有照片占满(内存随积木数量线性增长)。
- 我们的方法(图b):只在最后一步拍一张全景照,前面的步骤通过"魔法线索"逆向推导出每一步的位置。这样内存只需要保存最终照片和少量线索(内存恒定)。
- 反向传播(图c):拆城堡时从顶层开始,根据全景照和线索逐层找回每块积木的位置,拆完一层就删掉该层的线索(内存动态清空)。
关键技巧
• 可逆连接:像搭积木时在每层之间留"接口",既能正向搭建又能反向拆除。
• 动态清空:计算完当前层后就扔掉临时数据,只保留必要的"接口信息"。
• 兼容旧模型:当
u
t
=
1
u_t=1
ut=1且
v
t
=
0
v_t=0
vt=0时,我们的方法和原始流程完全一样,但通过开关参数就能切换模式。
这种设计让复杂模型(如3步扩散+大U-Net)也能在普通显卡上运行,就像用小内存盒子装下大蛋糕。
嗯,用户让我翻译并通俗解释一段关于将测量物理信息注入噪声估计器的学术内容。首先,我需要仔细阅读原文,理解其中的技术术语和概念。看起来这是关于压缩感知(CS)恢复中的一种改进方法,通过将物理信息整合到神经网络中以提高重建质量。
用户之前已经多次要求翻译和解释技术文档,所以我要保持一致的格式,使用美元符号包裹所有数学符号和公式。注意检查是否有遗漏的引用标记,但用户这次特别指出不要参考文献,所以需要忽略所有类似[24]的引用。
接下来,翻译部分要准确传达原文的意思,尤其是技术细节,比如注入器(injector)的设计、Conv1和Conv2的作用,以及Pixel-Shuffle层的功能。然后通俗解释部分需要用更简单的语言,避免专业术语,让读者即使没有背景也能理解。
用户提到之前的对话中有关于内存管理的讨论,所以可能需要关联一下,但当前段落主要关注物理信息的注入,所以重点放在那里。要确保例子和类比贴近日常生活,比如用“导航地图”来比喻测量信息的重要性。
另外,用户强调不要使用参考文献,所以在翻译时要删除所有引用,比如“see Sec. 2.1”。还要注意公式的正确性,比如式(6)和(7)的结构,确保数学表达式正确无误地用LaTeX呈现。
最后,检查整个回答是否符合用户的要求:翻译准确,解释通俗,格式正确,没有遗漏符号包裹。确保在通俗解释部分分点说明,结构清晰,帮助读者逐步理解复杂的概念。
翻译
3.4 将测量物理信息注入噪声估计器
在压缩感知(CS)重建中,有效利用物理信息 { y , A } \{y, A\} {y,A}(即测量信号 y y y和采样矩阵 A A A)至关重要。仅在初始化 x ^ T \hat{x}^T x^T和式(2)的RND理论步骤中使用这些信息,会导致复杂场景下重建质量受限(如图9(5)与(9)对比),因为噪声估计器 ϵ Θ \epsilon_\Theta ϵΘ的神经网络层难以学习物理规律。因此,我们需要将测量物理信息直接注入网络层中。
直接在
ϵ
Θ
\epsilon_\Theta
ϵΘ的每步输入层附加测量信息[24]效果不佳,因为采样矩阵
A
A
A和测量信号
y
y
y的细节难以通过深层特征保留。为解决这一问题,我们提出了一系列受物理信息神经网络(PINNs)启发的注入器(injector)[见第2.1节]。如图4所示,每个注入器位于
ϵ
Θ
\epsilon_\Theta
ϵΘ的每个分组块之后。对于U-Net中的中间深度特征
F
i
n
∈
R
(
H
/
r
)
×
(
W
/
r
)
×
C
F_{in} \in \mathbb{R}^{(H/r) \times (W/r) \times C}
Fin∈R(H/r)×(W/r)×C,注入器按以下方式融合测量物理信息和特征:
f
=
Conv1
(
(
F
i
n
)
↑
r
)
∈
R
H
×
W
×
1
,
(6)
f = \text{Conv1}((F_{in})^{\uparrow r}) \in \mathbb{R}^{H \times W \times 1}, \tag{6}
f=Conv1((Fin)↑r)∈RH×W×1,(6)
F
o
u
t
=
F
i
n
+
Conv2
(
[
f
,
A
†
A
f
,
A
†
y
]
)
↓
r
.
(7)
F_{out} = F_{in} + \text{Conv2}([f, A^\dagger A f, A^\dagger y])^{\downarrow r}. \tag{7}
Fout=Fin+Conv2([f,A†Af,A†y])↓r.(7)
其中,
Conv1
\text{Conv1}
Conv1和
Conv2
\text{Conv2}
Conv2为3×3卷积层,用于在特征域和图像域间转换数据,
(
⋅
)
↑
r
/
(
⋅
)
↓
r
(\cdot)^{\uparrow r}/(\cdot)^{\downarrow r}
(⋅)↑r/(⋅)↓r表示像素重排/解重排层(缩放比例
r
r
r),
[
f
,
A
†
A
f
,
A
†
y
]
∈
R
H
×
W
×
3
[f, A^\dagger A f, A^\dagger y] \in \mathbb{R}^{H \times W \times 3}
[f,A†Af,A†y]∈RH×W×3为中间图像数据
f
f
f、其与采样矩阵
A
†
A
A^\dagger A
A†A的交互项、以及反投影测量
A
†
y
A^\dagger y
A†y的通道级拼接。这些轻量级注入器被联合设计和训练,直接在
ϵ
Θ
\epsilon_\Theta
ϵΘ的分组块内建立测量信息与特征的融合路径,显著提升最终重建质量。
解释
为什么需要给噪声估计器"装导航"?
想象你要从模糊的照片(压缩信号)里还原高清图像,但普通的AI方法容易忽略照片背后的物理规则(比如光线、相机传感器特性)。这就像用盲人摸象的方法修图——虽然AI能学会一些"修图套路",但它不知道照片是怎么拍出来的。
我们的解决方案:直接给AI看"地图"
- 问题所在:传统方法只在开始时告诉AI模糊照片和相机参数(相当于给张地图一角),但AI在重建过程中容易"迷路"。
- 注入器的作用:我们在AI的每个处理步骤里悄悄塞入"导航提示"(测量信号
y
y
y和相机参数
A
A
A),确保每一步处理都基于真实物理规则。
• 数学操作:用轻量级卷积层将物理信息(如反投影结果 A † y A^\dagger y A†y)和当前处理的图像特征拼接在一起(就像在地图上标出关键地标);
• 动态调整:通过像素重排层让不同分辨率的特征互相交流(类似放大局部细节再融合全局信息)。
三大优势
- 精准导航:每一步处理都带着物理规则的"GPS",避免AI走偏;
- 轻量不耗内存:不需要改动原有网络结构,像贴补丁一样叠加新模块;
- 广泛适用:无论用哪种U-Net模型或扩散步骤,都能直接套用这套"导航系统"。
这种设计就像给AI装上了"物理透视镜",让它既能利用深度学习的强大学习能力,又不会忘记图像背后的物理本质。
嗯,用户让我翻译并通俗解释图4的描述。首先,我需要仔细阅读原文,理解其中的技术术语和结构。用户之前已经多次要求翻译类似的段落,所以我要保持一致的风格,确保符号和公式的正确格式。
首先,翻译部分。原文提到modified noise estimation U-Net εΘ,基于SD v1.5模型,添加了injectors在残差和注意力块后面,并分组在降采样、上采样和中块中。需要确认这些术语的准确翻译,比如“residual block”是残差块,“attention block”是注意力块,“downsampling”是下采样,“upsampling”是上采样,“middle blocks”是中块。还要注意括号里的DB、UB、MB是否需要保留英文缩写,可能需要加注中文。
接下来是注入器的功能,通过卷积和残差连接将测量物理信息{y, A}融合到深层特征中。要确保Conv1和Conv2的正确翻译,以及Pixel-Shuffle/Unshuffle层的描述。同时,用户强调不要参考文献,所以需要省略引用标记如[35]、[36]。
然后是通俗解释部分。需要将技术内容转化为更易懂的语言。比如,把U-Net比喻为“图像修复的超级电脑”,injectors作为“导航插件”。要解释为什么需要在这些块后面添加注入器,以及它们如何帮助网络利用物理信息。还要提到兼容网络剪枝,说明这种方法的优势。
需要注意用户之前的反馈,比如使用美元符号包裹公式,避免KaTeX错误。例如,原文中的括号和缩进要正确转换,确保公式编号如(a)、(b)正确显示。另外,用户希望保持简洁,所以通俗解释部分要避免过于技术化的术语,用类比和日常例子帮助理解。
最后,检查是否有遗漏的部分,比如图4的各个部分如何对应,注入器的位置和作用,以及修改后的U-Net如何提升性能。确保翻译准确,通俗解释清晰,符合用户的要求。
图4. 基于SD v1.5模型的图像压缩感知任务改进型噪声估计U-Net εΘ示意图
(a) 在残差块(DB)、注意力块(UB)和中块(MB)的每个分组块后添加注入器,并通过可逆设计进行分组。该方法与网络剪枝[71]正交且兼容,可进一步提升效率。
(b) 每个注入器通过卷积和残差连接学习将测量物理信息{y, A}融合到深层特征中。
解释
图4是什么?为什么要在U-Net里加"小插件"?
想象你要给一台"图像修复超级电脑"(U-Net)升级导航功能,让它修图时能看到真实的拍摄参数(比如光线、相机型号)。原来的电脑虽然厉害,但修图时容易忽略物理规律(比如模糊边缘应该怎么还原)。
我们的改造方案:
-
插件的位置:
• 在U-Net的每个"功能模块"后面装一个小插件(Injector),这些模块包括:
◦ 残差块(DB):处理图像细节的模块;
◦ 注意力块(UB):聚焦重要区域的模块;
◦ 中块(MB):协调全局和局部信息的模块。
• 这些插件像"导航员",时刻提醒网络当前的物理规则(比如模糊程度、拍摄角度)。 -
插件的工作原理:
• 传递物理信息:把测量信号 y y y(模糊照片)和相机参数 A A A(成像规律)转化成图像特征;
• 融合特征:通过轻量级卷积(类似图像放大/缩小)和残差连接(保留关键信息),把这些物理信息"缝"到深层特征里(如图中蓝色箭头)。
三大优势
- 精准导航:每一步修复都带着"物理地图",避免AI修图时"瞎猜";
- 轻量不占地:插件体积小,不影响原有网络结构,还能配合剪枝技术进一步省内存;
- 万能适配:不管用SD v1.5还是其他U-Net模型,都能直接安装这套"导航系统"。
这种设计就像给AI修图师配了副"透视眼镜",既能利用深度学习的强大学习能力,又能看清图像背后的物理世界。
嗯,用户让我翻译并通俗解释3.5节的内容,关于他们提出的IDM方法与其他扩散方法的关系。首先,我需要仔细阅读这段文字,理解其中的技术术语和关键点。
用户提到他们的方法不同于传统的基于后验采样的扩散模型,比如DDPM,后者通常需要大量的迭代步骤。而IDM则是端到端的确定性映射,用于图像压缩感知(CS)。用户还列举了四个主要区别:确定性初始化、端到端微调、更少的步骤,以及不同于后验采样的理论框架。
接下来,我需要准确翻译这些技术内容,确保所有符号和公式正确使用美元符号包裹。例如,方程中的 x ^ T = α ˉ T A † y \hat{x}^T = \sqrt{\bar{\alpha}_T} A^\dagger y x^T=αˉTA†y必须正确呈现。同时,要注意不要遗漏任何关键点,如与算法展开(algorithm unrolling)技术的联系和区别。
在通俗解释部分,需要将技术性的内容转化为更易懂的语言。比如,把“后验采样”比喻为“反复试错”,而IDM则是“直奔主题的学习”。要强调IDM的优势,如步骤少、内存效率高,以及如何结合预训练模型提升性能。
还要注意用户之前的对话历史,他们多次要求修正公式中的错误,比如缺少花括号的问题。因此,在翻译时要特别检查所有公式,确保格式正确。此外,用户希望避免参考文献,所以翻译中不应包含任何引用标记。
最后,确认翻译后的内容是否涵盖了所有四点区别,并且通俗解释部分是否清晰传达了IDM的创新之处和实际优势。可能需要使用类比或日常生活中的例子来帮助读者理解复杂的概念,比如用“导航地图”来解释注入器的作用,或者用“搭积木”来比喻可逆层的设计。
翻译
3.5 讨论
我们提出的方法重新解读了DDNM扩散框架用于图像CS重建,突破了传统基于后验采样的范式[34]、[89]。在本节中,我们将讨论IDM方法与先前基于后验采样的扩散方法之间的关系,以及IDM与算法展开[48]技术之间的异同。
3.5.1 与先前扩散方法的关系
传统基于DDPM[49]的扩散模型通常通过后验采样实现图像生成与重建,这类模型通过求解随机微分方程(SDEs)或常微分方程(ODEs),逐步对随机初始化的噪声进行去噪,以获得目标数据分布的样本。这一过程通常需要数百甚至数千次迭代步骤。相比之下,IDM将扩散采样过程重新定义为针对图像CS重建的端到端确定性映射。通过微调预训练的扩散模型,我们直接学习从测量信号 y y y到原始图像 x x x的映射,仅需少量采样步骤(例如 T = 3 T=3 T=3)。具体而言,该方法在四个关键方面与传统扩散方法存在差异:
- 确定性初始化:我们的IDM方法通过确定性估计 x ^ T = α ˉ T A † y \hat{x}^T = \sqrt{\bar{\alpha}_T} A^\dagger y x^T=αˉTA†y启动采样过程,消除了扩散模型中的随机性。实验研究表明,这种确定性初始化显著提升了性能(详见消融研究表5,变体(8)与(9)的对比)。
- 端到端微调:我们直接在CS重建任务上,使用L1损失函数联合微调扩散模型的所有参数(包括噪声估计器 ϵ Θ \epsilon_\Theta ϵΘ)。这种端到端训练使模型能力与CS特定需求对齐,同时优化了扩散采样过程和噪声估计器。
- 少步骤优势:通过将DDNM的采样过程适配于CS任务,并利用强大的预训练SD[36]模型,我们的方法在仅需3步的情况下即可实现高质量重建,而传统方法通常需要数百或数千步。
- 理论框架差异:由于IDM的确定性特性和有限采样步骤,它并不严格遵循通过后验采样求解SDEs/ODEs的理论框架。相反,它作为一个针对图像CS优化的迭代重建模型发挥作用。尽管在理论上可能与后验采样不完全一致,但我们通过实验结果证明了其在性能和效率上的实用优势。
解释
IDM和其他扩散方法有什么不同?
想象你要修一张模糊的照片(压缩后的信号),传统方法像在黑暗中摸索:
-
老办法(后验采样):
• 需要反复猜很多次(比如几千次),每次随机调整一点;
• 像用盲人摸象的方法,可能永远找不到正确的细节。 -
我们的新方法(IDM):
• 开卷考试:直接告诉你这张照片的大致样子( x ^ T = α ˉ T A † y \hat{x}^T = \sqrt{\bar{\alpha}_T} A^\dagger y x^T=αˉTA†y),省去盲目尝试;
• 一键优化:一次性教会AI怎么把模糊信号变成清晰图像,而且只需要三步;
• 聪明插件:给AI装上"物理导航仪"(比如光线、相机参数),每一步都走得稳稳的;
• 理论不重要:虽然不严格符合数学上的"摸象理论",但修出来的图又快又好。
IDM为什么更厉害?
• 快:传统方法要迭代几千次,我们只需要三步;
• 省内存:像用手机修图一样,不需要占用太多内存;
• 准:结合预训练模型(比如SD v1.5)的强大能力,修出来的图细节丰富;
• 灵活:可以和其他优化技术(比如网络剪枝)一起用,进一步提升效率。
这种设计就像给AI修图师配了副"透视眼镜",既能利用深度学习的聪明学习能力,又能看清图像背后的物理规律,修图速度和质量都大大提升。
好的,我现在需要处理用户提供的这段关于图像压缩感知(CS)和扩散模型的技术文本。用户希望我先翻译这段话,再进行通俗解释,而且不要参考文献。首先,我要仔细阅读原文,理解其中的技术概念和术语,确保翻译准确无误。
首先,用户提到的“Deep Algorithm Unrolling”(深度算法展开)和“IDM”(可能是指他们提出的方法,但文中未明确全称,可能需要根据上下文推测)。我需要确认这些术语的正确翻译,尤其是专有名词如“ISTA”、“ADMM”等,是否已有标准中文译法。例如,“ISTA”通常译为“迭代软阈值算法”,“ADMM”是“交替方向乘子法”。
接下来,注意用户要求所有符号和公式用美元符号包裹,例如数学表达式中的变量和运算符。在翻译过程中,必须严格按照用户提供的示例格式处理,确保LaTeX公式的正确性。例如,原文中的 α ˉ T \bar{\alpha}_T αˉT应翻译为 α ˉ T \bar{\alpha}_T αˉT,并在公式中正确使用斜体和正体。
然后,进行通俗解释部分。这部分需要将技术性的内容转化为更易懂的语言,避免使用过多专业术语,必要时用类比或比喻帮助读者理解。例如,将“算法展开”比作“将一本复杂的说明书拆解成一步步的操作指南”,或者将“预训练模型”比作“已经学会了很多知识的专家,可以直接应用在新任务上”。
在翻译过程中,还需要注意段落的结构和逻辑关系,确保译文流畅,符合中文表达习惯。例如,原文中的对比结构(Firstly, Secondly, Thirdly, Fourthly)在翻译时应保持清晰,可能使用“首先”、“其次”、“第三”等词语来衔接。
另外,用户提到“IDM”在之前的对话中出现过,需要保持一致性,确保译文中使用的术语与之前翻译的部分一致。例如,如果之前将“IDM”译为“智能扩散模型”,则此处也应沿用。
还要注意一些技术细节,如“two-level invertible design”(两级可逆设计)、“pre-trained SD v1.5 U-Net”(预训练的SD v1.5 U-Net)等,需要准确翻译并确保读者能够理解其在上下文中的作用。
最后,检查是否有遗漏的符号或公式,确保所有数学表达式都被正确转换,并且没有格式错误。同时,保持回答的简洁性和准确性,避免冗余或误解。
总结一下,我的步骤是:
- 通读原文,理解技术内容和结构。
- 准确翻译专业术语和数学公式,保持格式规范。
- 进行通俗解释,使用类比和简化语言。
- 检查一致性,确保术语和格式与之前的翻译一致。
- 最后校对,确保无遗漏和错误。
翻译
3.5.2 与深度算法展开的关系
深度算法展开网络[19]、[48]通过将固定次数的迭代优化算法展开为可训练的神经网络层,将迭代过程转化为端到端的学习问题。每层对应原算法的一次迭代,整个网络通过端到端训练提升特定任务(如图像重建)的性能。我们的方法与深度展开共享迭代过程的层式结构,但存在以下四点关键区别:
- 预训练优势:不同于传统算法展开网络需从随机权重开始训练,IDM利用大规模预训练扩散模型SD v1.5。这使得我们能够复用从海量数据中学到的丰富特征表示,为重建任务提供强大基础。
- 理论根基差异:传统展开方法基于特定优化算法(如ISTA、ADMM),继承其收敛性和可解释性。而IDM根植于扩散框架,本质上不同于传统优化算法。这种差异使我们能够探索不受传统方法限制的新架构和训练策略。
- 内存效率创新:为解决大规模扩散模型端到端训练的内存挑战,我们提出两级可逆设计,显著降低内存消耗并支持在消费级GPU上高效训练。这是IDM独有的创新,传统展开方法中罕见此类设计。
- 快速适应新任务:通过复用和微调预训练SD模型,IDM可快速适配不同逆问题(如图像CS、加速MRI、稀疏视图CT),仅需极少训练成本。相较之下,展开网络通常需对新任务进行大量重新训练或重构。
总体而言,尽管IDM与深度展开共享迭代特性,但其对扩散模型的利用及独特优势使其脱颖而出。我们弥合了扩散生成模型与逆问题求解之间的理论鸿沟,展示了扩散模型在高质量CS重建中的有效性。
解释
IDM和"算法展开"有什么不同?
想象你要教计算机学会解一道数学题,有两种方法:
-
传统算法展开:
• 像数学老师一样,把解题步骤拆解成一步步指令(比如"先加后减");
• 每次遇到新题目都要重新编写所有指令;
• 耗费大量时间精力才能教会计算机。 -
我们的IDM方法:
• 直接借用已有的"数学大师"(预训练SD模型)的知识库;
• 只需告诉它这道题的特殊要求(比如"图像去模糊"),就能快速调整解题步骤;
• 甚至能同时解决其他类似问题(如医学成像),就像会举一反三的学霸。
IDM为什么更厉害?
• 站在巨人的肩膀上:利用预训练模型的"知识储备",省去从零学习的麻烦;
• 灵活又聪明:不像传统方法受限于固定解题套路,能创新出更适合CS任务的策略;
• 省内存小能手:通过巧妙的"两步走"设计,让大型模型也能在普通电脑上跑;
• 一劳永逸:学会一个任务后,稍微调整就能解决其他相关问题。
这种设计就像给计算机装上了"超级大脑",既有现成的智慧,又能快速学习新技能,特别适合处理像图像修复这类复杂任务。