这篇文章的做法和instanceid有很多相似的地方。
1.introduction
图像修复的目标是恢复图像中的缺失部分,同时保持整体的连贯性。常见的基于文本引导的扩散式图像修复方法大致可以分为两类:1.采样策略调整,通过修改标准去噪过程,从预训练的扩散模型中采样mask区域,未mask区域在每次去噪步骤中直接从给定图像复制粘贴,这种方法对mask边界和为mask区域的感知有限,导致修复结果不连贯;2.专用修复模型,通过扩展基础扩散模型的输入通道维度,以整合提供的损坏图像和mask,对专门设计的图像修复模型进行微调。
专用修复模型在早期阶段融合了噪声潜在向量、mask潜在向量、mask和文本,这种架构设计是的mask图像特征容易受到文本embedding的影响,