Inf-DiT：清华联合智谱AI推出超高分辨率图像生成模型，生成的空间复杂度从 O(N^2) 降低到 O(N)-CSDN博客

本文链接：https://blog.csdn.net/qq_19841021/article/details/144952981

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新应用和热点信息，提供开源实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

公众号: 蚝油菜花 - Inf-DiT

Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法，能够生成超高分辨率图像。该模型通过引入单向块注意力机制（UniBA），将生成过程中的空间复杂度从 O(N^2) 降低到 O(N)，有效解决了传统扩散模型在生成大尺寸图像时内存消耗过高的问题。

Inf-DiT 采用扩散变换器（DiT）结构，能够处理各种形状和分辨率的图像上采样任务。此外，Inf-DiT 设计了多种技术来增强图像的局部和全局一致性，如全局图像嵌入和邻近低分辨率块的交叉注意力机制，进一步提升生成图像的质量和一致性。

超高分辨率图像生成：突破传统扩散模型在高分辨率图像生成中的内存限制，适用于需要精细细节和丰富纹理的复杂设计、广告、海报和壁纸等实际应用场景。
灵活的图像上采样：处理各种形状和分辨率的图像上采样任务，为不同需求的图像质量提升提供了强大的技术支持。
局部和全局一致性增强：通过全局图像嵌入和邻近低分辨率块的交叉注意力机制，有效增强生成图像的局部和全局一致性，确保生成的图像在细节和整体结构上均符合预期。
零样本文本控制能力：具备零样本文本控制能力，根据给定的文本提示对生成的图像进行引导和调整，增加生成图像的多样性和可控性。

单向块注意力机制（UniBA）：将图像分割成多个块，在每个扩散步骤中对这些块进行顺序批量生成，每个批次同时生成一部分块，且只要内存允许，能并行生成任意数量的块。该机制让生成过程中的空间复杂度从 O(N^2) 降低到 O(N)，有效减少内存消耗，提高可生成图像的最大分辨率。
扩散变换器（DiT）结构：Inf-DiT 基于扩散变换器结构作为其基础架构，利用 Vision Transformer（ViT）的优势，将注意力机制作为图像块之间交互的主要方式，便于实现单向块注意力机制，提高模型的性能和可扩展性。
全局图像嵌入：为增强生成图像的全局语义一致性，Inf-DiT 基于预训练的 CLIP 模型从低分辨率图像中提取全局图像嵌入，将其添加到扩散变换器的时间嵌入中，让模型能直接从高层语义信息中学习。
邻近低分辨率块的交叉注意力机制：在生成高分辨率图像时，为减少生成不连续图像的概率，Inf-DiT 在变换器的第一层引入邻近低分辨率块的交叉注意力机制，让每个块能对周围的 3×3 低分辨率块进行交叉注意力操作，更好地捕捉邻近低分辨率信息，增强局部一致性。

首先，从这里下载模型权重，并将其放入 ckpt 文件夹中。

使用以下命令运行生成脚本：

bash generate_sr_big_cli.sh

在脚本中，输入低分辨率图像的路径。

你可以通过修改 generate_sr_big_cli.sh 文件中的 inference_type 参数来调整推理类型：

--input-type：选择 cli 或 txt（每行是一个低分辨率图像的路径）。
--inference_type：选择 ar、ar2 或 full。
--block_batch：块并行大小，一次前向传播将生成 block_batch * block_batch 个块。当前版本要求图像（上采样后）的边长能被 block_batch * 128 整除。
--image-size：未使用。
--out-dir：输出目录。
--infer_sr_scale：超分辨率的缩放比例，当前版本仅支持 2 和 4。