抛弃UNet,首个基于DiT的图像编辑框架!DiT4Edit:多尺寸编辑质量更优 | 北大&港科大

文章链接:https://arxiv.org/pdf/2411.03286
工程链接:https://github.com/fkyyyy/DiT4Edit

亮点直击

  • 基于基于Transformer的扩散模型在图像编辑中的优势,提出了DiT4Edit,第一个不需要调优的基于扩散Transformer(DiT)的图像编辑框架。

  • 为了适应基于Transformer的去噪计算机制,首先提出了统一的注意力控制机制,以实现图像编辑。引入了DPM-Solver反演和图像块合并策略,以减少推理时间。

  • 大量定性和定量的实验结果证明了DiT4Edit在对象编辑、风格编辑和形状感知编辑方面的优越性能,适用于各种图像尺寸,包括512 × 512、1024 × 1024和1024 × 2048。

总结速览

解决的问题
现有的基于UNet的高分辨率图像编辑方法在实现形状感知的对象编辑方面仍存在不足。相比之下,Diffusion Transformers (DiT) 能更有效地捕捉图像块之间的长程依赖关系,但目前在图像编辑领域的应用仍较少。

提出的方案
本文提出了基于Diffusion Transformers的首个图像编辑框架——DiT4Edit。DiT4Edit采用DPM-Solver反演算法来获取反演隐变量,与传统UNet框架常用的DDIM反演算法相比,显著减少了迭代步数。此外,设计了适用于Transformer计算流的统一注意力控制和图像块合并机制。

应用的技术

  1. Diffusion Transformers (DiT) 框架

  2. DPM-Solver反演算法

  3. 统一注意力控制和图像块合并机制

达到的效果
DiT4Edit在编辑质量和速度上优于UNet框架,尤其在高分辨率和任意尺寸的图像编辑中表现突出。大量实验验证了该框架在各种编辑场景中的强大性能,展示了Diffusion Transformers在支持图像编辑方面的潜力。

方法

本文提出的框架旨在基于Diffusion Transformer实现各种尺寸图像的高质量编辑。本文的方法是基于预训练的文本到图像Transformer扩散模型(例如,)的首个编辑策略。通过我们的方法,用户可以通过提供目标提示,获得比现有的基于UNet的方法更好的编辑结果。本节首先介绍隐空间扩散模型和DPM反演。然后阐明基于Transformer的去噪在图像编辑任务中的优越性。最后讨论编辑方法的实现细节。

基础知识:隐空间扩散模型

隐空间扩散模型(Latent Diffusion Models,LDM) 提出了在隐空间Z中进行去噪处理的图像生成方法。具体而言,它使用编码器E将像素图像x编码为低分辨率隐空间变量z = E(x)。在训练过程中,模型通过去除人为噪声,优化去噪UNet ,该过程以文本提示embedding y和当前图像样本为条件,其中是步下的带噪样本:

经过训练后,它能够通过学习到的去噪过程将随机噪声转换为图像样本z。

DPM-Solver采样。在扩散概率模型(DPMs

### 关于面包板电源模块 MB102 的 USB 供电规格及兼容性 #### 1. **MB102 基本功能** 面包板电源模块 MB102 是一种常见的实验工具,主要用于为基于面包板的小型电子项目提供稳定的电压输出。它通常具有两路独立的稳压输出:一路为 5V 和另一路可调电压(一般范围为 3V 至 12V)。这种设计使得它可以满足多种芯片和传感器的不同工作电压需求。 #### 2. **USB 供电方式** MB102 支持通过 USB 接口供电,输入电压通常是标准的 5V DC[^1]。由于其内部集成了 LM7805 稳压器以及可调节电位器控制的直流-直流变换电路,因此即使输入来自电脑或其他低功率 USB 设备,也能稳定地向负载供应电力。不过需要注意的是,如果项目的功耗较高,则可能超出某些 USB 端口的最大电流能力(一般是 500mA),从而引起不稳定现象或者保护机制启动断开连接的情况发生。 #### 3. **兼容性分析** 该型号广泛适用于各种微控制器单元 (MCU),特别是那些像 Wemos D1 R32 这样可以通过杜邦线轻松接入并共享相同逻辑级别的系统[^2]。另外,在提到 Arduino Uno 板时也表明了良好的互操作性,因为两者均采用相似的标准接口定义与电气特性参设置[^4]: - 对于需要 3.3V 工作环境下的组件来说,只需调整好对应跳线帽位置即可实现精准匹配; - 当涉及到更多外围扩展应用场合下,例如带有多重模拟信号采集任务的情形里,利用 MB102 提供干净无干扰的基础能源供给就显得尤为重要了[^3]。 综上所述,对于打算构建以单片机为核心的原型验证平台而言,选用具备良好声誉记录且易于获取配件支持服务链路上下游资源丰富的品牌产品——如这里讨论过的这款特定类型的配电装置不失为明智之举之一。 ```python # 示例 Python 代码展示如何检测硬件状态 import machine pin = machine.Pin(2, machine.Pin.IN) if pin.value() == 1: print("Power supply is stable.") else: print("Check your connections and power source.") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值