CVPR 2025 解码未来：扩散模型在小波变换中的突破性应用

最新推荐文章于 2025-04-18 08:59:42 发布

大靠山

最新推荐文章于 2025-04-18 08:59:42 发布

阅读量1.7k

点赞数 32

文章标签：开源人工智能政务机器学习深度学习

本文链接：https://blog.csdn.net/m0_59235245/article/details/143866147

版权

扩散模型是一类基于随机过程生成新数据的机器学习模型，主要用于生成任务，如图像、音频和文本合成。这些模型通过模拟数据生成的连续随机过程来工作，首先引入噪声破坏数据结构，然后逐步去除这些噪声来恢复或创造新的数据实例。由于其生成高质量、高分辨率数据的能力，扩散模型已在多个领域显示出广泛的应用潜力。

在小波变换方面，扩散模型可以用来增强或重构信号和图像。小波变换是一种强大的工具，用于信号处理和图像分析，特别是在处理非平稳信号时。扩散模型通过在变换的小波系数上进行操作，可以改善小波变换在信号分解和重建方面的性能，特别是在去噪、压缩和特征提取等应用中。这种结合提供了一种新的方法来处理复杂信号和图像，优化传统的小波变换方法，并可能带来更精确的分析结果和更高质量的重构图像。

UDiFF: Generating Conditional Unsigned Distance Fields with Optimal Wavelet Diffusion

关键方法：我们提出了UDiFF，一个三维扩散模型无符号距离字段（udf），它能够从文本条件下或无条件地生成具有开放表面的纹理3D形状。我们的关键思想是在空间频域用最优小波变换生成UDF，为UDF生成生成一个紧凑的表示空间。具体来说，我们提出了一种数据驱动的方法来学习udf的最优小波变换，而不是选择适当的小波变换，这仍然会导致大量的信息损失。

核心创新点：

我们提出了UDiFF，一个无符号距离场的三维扩散模型，它能够从文本条件下或无条件地生成具有开放表面的真实纹理三维形状。
通过数据驱动优化引入了UDF的最优小波变换，并证明了通过该变换学习到的空间频域是一个适合UDF生成的紧凑域。
我们评估了UDiFF来生成具有开放和封闭表面的三维形状，并显示了我们比最先进的方法的优越性。

Stage-by-stage Wavelet Optimization Refinement Diffusion Model for Sparse-View CT Reconstruction

关键方法：我们提出了一种创新的方法，称为逐级小波优化细化扩散（剑）模型，用于稀疏视图CT重建。具体来说，我们建立了一个整合低频和高频生成模型的统一数学模型，通过优化程序实现了求解。此外，我们对小波的分解分量进行低频和高频生成模型，而不是对正弦图或图像域进行低频和高频生成模型，确保了模型训练的稳定性。

核心创新点：

我们提出了一个开创性的小波域扩散模型，工作在小波域内，而不是原始数据或图像域。这种创新的方法大大提高了在整个训练过程中扩散模型的稳定性。通过利用小波变换，我们的模型可以有效地捕获和表示正弦图中的特征和结构。
通过统一的数学模型对高频和低频分量对正弦图进行建模，我们有效地将复杂数据分布分离为两个独立的简化分布。因此，通过优化所建立的数学模型，结合两个得分函数来表征这两种不同的数据分布。这种创新的方法使我们能够解决数据复杂性所带来的挑战。
我们还开发了一种基于小波的两阶段扩散策略。在第一阶段，重点是学习包含正弦图的主要结构和特征的低频分量。在第二阶段，重点是构建一个高频组件的生成模型，以捕捉复杂的细节和结构。这种两阶段的方法使模型能够学习和学习有效地利用全球和本地信息，有助于提高重建的质量和准确性。
我们在两个大规模的稀疏视图CT数据集上严格地验证和评估了我们提出的模型。实验结果显示了其显著的重建性能，并被定量和定性的评价所证实。该模型在产生高质量重建方面的能力重申了其作为稀疏视图CT重建的一个稳健和有效的解决方案的潜力。

WDM: 3D Wavelet Diffusion Models for High-Resolution Medical Image Synthesis

****关键**方法：**本文提出了一种基于小波的医学图像合成框架，将小波分解图像应用扩散模型。该方法是一种简单而有效的将三维扩散模型扩展到高分辨率的方法，可以在单个40 GB的GPU上进行训练。在分辨率为128×128×128的情况下，BraTS和LIDC-IDRI无条件图像生成的实验结果表明，与最近的GANs、扩散模型和潜在扩散模型相比，这是最先进的图像保真度（FID）和样本多样性（MS-SSIM）分数。

核心创新点：

我们提出了WDM，一种记忆高效的三维小波扩散模型，用于医学图像合成。
该方法可以生成分辨率高达256×高达256×256的高质量图像，并且可以在单个40 GB GPU上进行训练。
该方法在分辨率为128×128×128的情况下，展示了最先进的图像保真度（FID）和样本多样性（MS-SSIM）得分，同时在256×256×256的分辨率下优于所有比较方法。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述