Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新应用和热点信息,提供开源实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 技术突破:Inf-DiT 通过单向块注意力机制(UniBA)将生成过程中的空间复杂度从 O(N^2) 降低到 O(N),有效减少内存消耗。
  2. 功能多样:支持超高分辨率图像生成、灵活的图像上采样、局部和全局一致性增强,以及零样本文本控制能力。
  3. 应用广泛:适用于设计与创意、娱乐与媒体、印刷与出版、科技与研究等多个领域。

正文(附运行示例)

Inf-DiT 是什么

公众号: 蚝油菜花 - Inf-DiT

Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法,能够生成超高分辨率图像。该模型通过引入单向块注意力机制(UniBA),将生成过程中的空间复杂度从 O(N^2) 降低到 O(N),有效解决了传统扩散模型在生成大尺寸图像时内存消耗过高的问题。

Inf-DiT 采用扩散变换器(DiT)结构,能够处理各种形状和分辨率的图像上采样任务。此外,Inf-DiT 设计了多种技术来增强图像的局部和全局一致性,如全局图像嵌入和邻近低分辨率块的交叉注意力机制,进一步提升生成图像的质量和一致性。

Inf-DiT 的主要功能

  • 超高分辨率图像生成:突破传统扩散模型在高分辨率图像生成中的内存限制,适用于需要精细细节和丰富纹理的复杂设计、广告、海报和壁纸等实际应用场景。
  • 灵活的图像上采样:处理各种形状和分辨率的图像上采样任务,为不同需求的图像质量提升提供了强大的技术支持。
  • 局部和全局一致性增强:通过全局图像嵌入和邻近低分辨率块的交叉注意力机制,有效增强生成图像的局部和全局一致性,确保生成的图像在细节和整体结构上均符合预期。
  • 零样本文本控制能力:具备零样本文本控制能力,根据给定的文本提示对生成的图像进行引导和调整,增加生成图像的多样性和可控性。

Inf-DiT 的技术原理

  • 单向块注意力机制(UniBA):将图像分割成多个块,在每个扩散步骤中对这些块进行顺序批量生成,每个批次同时生成一部分块,且只要内存允许,能并行生成任意数量的块。该机制让生成过程中的空间复杂度从 O(N^2) 降低到 O(N),有效减少内存消耗,提高可生成图像的最大分辨率。
  • 扩散变换器(DiT)结构:Inf-DiT 基于扩散变换器结构作为其基础架构,利用 Vision Transformer(ViT)的优势,将注意力机制作为图像块之间交互的主要方式,便于实现单向块注意力机制,提高模型的性能和可扩展性。
  • 全局图像嵌入:为增强生成图像的全局语义一致性,Inf-DiT 基于预训练的 CLIP 模型从低分辨率图像中提取全局图像嵌入,将其添加到扩散变换器的时间嵌入中,让模型能直接从高层语义信息中学习。
  • 邻近低分辨率块的交叉注意力机制:在生成高分辨率图像时,为减少生成不连续图像的概率,Inf-DiT 在变换器的第一层引入邻近低分辨率块的交叉注意力机制,让每个块能对周围的 3×3 低分辨率块进行交叉注意力操作,更好地捕捉邻近低分辨率信息,增强局部一致性。

如何运行 Inf-DiT

1. 下载模型权重

首先,从这里下载模型权重,并将其放入 ckpt 文件夹中。

2. 运行生成脚本

使用以下命令运行生成脚本:

bash generate_sr_big_cli.sh

在脚本中,输入低分辨率图像的路径。

3. 调整推理类型

你可以通过修改 generate_sr_big_cli.sh 文件中的 inference_type 参数来调整推理类型:

  • ar:并行大小为 1。
  • ar2:并行大小为 block_batch(第 28 行)。
  • full:一次性生成整个图像。
4. 超参数说明
  • --input-type:选择 clitxt(每行是一个低分辨率图像的路径)。
  • --inference_type:选择 arar2full
  • --block_batch:块并行大小,一次前向传播将生成 block_batch * block_batch 个块。当前版本要求图像(上采样后)的边长能被 block_batch * 128 整除。
  • --image-size:未使用。
  • --out-dir:输出目录。
  • --infer_sr_scale:超分辨率的缩放比例,当前版本仅支持 2 和 4。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新应用和热点信息,提供开源实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值