自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 收藏
  • 关注

原创 UniTune: Text-Driven Image Editing by Fine Tuning a Diffusion Model on a Single Image

文本驱动的图像编辑方法通常需要编辑掩码,难以进行需要显著视觉更改的编辑,并且无法轻松保留编辑部分的特定细节。在本文中,我们观察到,只需在单个图像上对图像生成模型进行微调,就可以将其转换为图像编辑模型。我们还表明,在采样前用基础图像的噪声版本初始化随机采样器,并在采样后从基础图像插值相关细节,进一步提高了编辑操作的质量。结合这些观察结果,我们提出了一种新颖的图像编辑方法UniTune。UniTune获取任意图像和文本编辑描述作为输入,并在保持对输入图像的高保真度的同时执行编辑。

2024-06-13 15:20:17 619

原创 Imagic: Text-Based Real Image Editing with Diffusion Models

在本文中,我们首次展示了将复杂(例如,非刚性)基于文本的语义编辑应用于单个真实图像的能力。例如,我们可以改变图像中一个或多个对象的姿势和组成,同时保留其原始特征。我们的方法可以让站着的狗坐下,让鸟展开翅膀,等等——每一个都在用户提供的高分辨率自然图像中。与之前的工作相反,我们提出的方法只需要单个输入图像和目标文本(所需的编辑)。它对真实图像进行操作,并且不需要任何额外的输入(例如图像遮罩或对象的额外视图)。我们的方法称为Imagic,利用预先训练的文本到图像扩散模型来完成这项任务。

2024-06-12 18:09:56 932

原创 Negative-prompt Inversion: Fast Image Inversion for Editing with Text-guided Diffusion Models

在使用扩散模型的图像编辑中,在改变其风格的同时保持原始图像的重建质量是至关重要的。尽管现有的方法通过优化来确保重建质量,但这些方法的缺点是优化所需的大量时间。在本文中,我们提出了负提示反演,这是一种能够在不进行优化的情况下仅通过正向传播实现等效重建的方法,从而实现更快的编辑过程。我们通过实验证明,我们的方法的重建质量与现有方法相当,允许在大约5秒内以512像素的分辨率和50个采样步骤进行反演,这比空文本反演快30多倍。

2024-06-11 23:03:19 988

原创 Prompt-to-Prompt Image Editing with Cross Attention Control

编辑对这些生成模型来说是具有挑战性的,因为编辑技术的一个固有特性是保留大部分原始图像,而在基于文本的模型中,即使对文本提示进行微小修改,也往往会导致完全不同的结果。现有技术的方法通过要求用户提供空间掩模来定位编辑,从而忽略掩模区域内的原始结构和内容来减轻这种情况。在本文中,我们追求一个直观的示编辑框架,其中编辑仅由文本控制。为此,我们深入分析了一个文本条件模型,并观察到交叉注意力层是控制图像空间布局与提示中每个单词之间关系的关键。根据这一观察结果,我们提出了几个仅通过编辑文本提示来监控图像合成的应用程序。

2024-06-11 22:55:42 973

原创 Null-text Inversion for Editing Real Images using Guided Diffusion Models

在本文中,我们介绍了一种精确的反转技术,从而有助于直观地对图像进行基于文本的修改。我们提出的反演由两个新的关键组成部分组成:(i)扩散模型的关键反演。虽然目前的方法旨在将随机噪声样本映射到单个输入图像,但我们为每个时间戳使用一个关键噪声向量,并围绕它进行优化。我们证明,直接反演本身是不够的,但确实为我们的优化提供了一个很好的锚。(ii)空文本优化,其中我们只修改用于无分类器引导的无条件文本嵌入,而不是输入文本嵌入。

2024-03-27 16:33:20 1161

原创 DREAMCLEAN: RESTORING CLEAN IMAGE USING DEEP DIFFUSION PRIOR

目前的研究主要依赖于恢复类型的先验知识,要么是通过规则明确地定义(DDRM中Liner的假设),要么是通过可用的退化-清晰图像对(End2End)隐含地定义恢复过程,并且需要大量的工作来收集各种退化类型的图像对。本文介绍了DreamClean,这是一种无需训练的方法,无需退化先验知识,但能产生高保真度和普适性,适用于各种图像退化类型。DreamClean将退化图像嵌入到预先训练的扩散模型的潜在空间中,并通过精心设计的扩散过程对其重新采样,模拟生成清晰图像的过程。

2024-03-17 12:23:25 1081

原创 Diff-Plugin: Revitalizing Details for Diffusion-based Low-level Tasks

我们提出了一种新的 Diff-Pluggin 框架,使单个预训练的扩散模型能够在各种低级任务中生成高保真结果。具体来说,我们首先提出了一个轻量级的任务-Pluggin模块,该模块具有双分支设计,以提供特定于任务的先验,指导扩散过程保留图像内容。然后,我们提出了一种插件选择器,它可以根据文本指令自动选择不同的 Task-Plugins,允许用户通过指示具有自然语言的多个低级任务来编辑图像。我们对 8 个低级视觉任务进行了广泛的实验。结果表明,Diff-Pluggin 优于现有方法,尤其是在现实场景中。

2024-03-14 21:38:36 1339 6

原创 Sequential Modeling Enables Scalable Learning for Large Vision Models

我们介绍了一种新的顺序建模方法,该方法可以在不使用任何语言数据的情况下学习大视觉模型(LVM)。为此,我们定义了一个通用格式“视觉句子(visual sentences)”,其中我们可以表示原始图像和视频以及带注释的数据源,例如语义分割和深度重建,而不需要像素之外的任何元知识。一旦这种各种各样的视觉数据(由 420 亿个标记组成)表示为序列,就可以训练模型以最小化下一个标记预测的交叉熵损失。通过跨各种规模的模型架构和数据多样性进行训练,我们提供了经验证据,证明我们的模型有效地扩展。

2024-01-16 11:41:44 984

原创 DIFFWAVE: A VERSATILE DIFFUSION MODEL FOR AUDIO SYNTHESIS (Paper reading)

在这项工作中,我们提出了DiffWave,这是一种用于条件和无条件波形生成的多功能扩散概率模型。该模型是非自回归的,通过具有合成过程中恒定步数的马尔可夫链将白噪声信号转换为结构化波形。通过在数据似然上优化一种变体的变分下界,该模型能够高效训练。DiffWave在不同的波形生成任务中产生高保真音频,包括基于梅尔频谱图的神经声码化、类别条件生成和无条件生成。我们证明DiffWave在语音质量方面与强大的WaveNet声码器相匹配(MOS:4.44对比4.43),同时合成速度更快数个数量级。

2024-01-11 23:09:39 1080

原创 Vector Quantized Diffusion Model for Text-to-Image Synthesis

我们提出了用于文本到图像生成的矢量量化扩散(Vector Quantized Diffusion Model;VQ-Diffusion)模型。该方法基于矢量量化变分自编码器(VQ-VAE),其潜在空间由最近开发的去噪扩散概率模型(DDPM)的条件变体建模。我们发现这种潜在空间方法非常适合文本到图像生成任务,因为它不仅消除了现有方法的单向偏差,还允许我们合并掩码和替换扩散策略以避免错误的积累,这是现有方法的严重问题。

2023-12-07 16:03:08 1662

原创 What the DAAM: Interpreting Stable Diffusion Using Cross Attention

大规模扩散神经网络是文本到图像生成中的一个重要里程碑,但人们对其了解甚少,缺乏可解释性分析。在本文中,我们对最近开源的模型Stable Diffusion进行了文本-图像归因分析。为了生成像素级归因图,我们在去噪子网络中提升并聚合交叉注意词-像素得分,将我们的方法命名为DAAM。我们通过测试其对名词的语义分割能力以及对所有词性的广义归因质量来评估其正确性,并由人类进行评分。然后,我们应用DAAM来研究语法在像素空间中的作用,表征十种常见依赖关系的头部相关热图交互模式。

2023-12-06 22:08:18 1879 1

原创 ANYTEXT: MULTILINGUAL VISUAL TEXT GENERATION AND EDITING

基于扩散模型的文本到图像最近取得了令人印象深刻的成就。尽管当前用于合成图像的技术是高度先进的,并且能够以高保真度生成图像,但是当聚焦于生成的图像中的文本区域时,仍然有可能泄露显示,因为合成的文本通常包含模糊、不可读或不正确的字符,使得视觉文本生成成为该领域中最具挑战性的问题之一。为了解决这个问题,我们介绍了AnyText,这是一种基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中呈现准确连贯的文本。AnyText包括一个具有两个主要元素的扩散管道:一个辅助潜在模块和一个文本嵌入模块。

2023-12-06 19:09:01 1329

原创 Image Super-Resolution with Text Prompt Diffusion

受多模态方法和文本提示图像处理进步的启发,我们将文本提示引入图像SR,以提供退化先验。具体来说,我们首先设计了一个文本图像生成管道,通过文本退化表示和退化模型将文本集成到SR数据集中。文本表示采用基于装箱方法的离散化方式来抽象描述退化。这种表示方法还可以保持语言的灵活性。同时,我们提出了PromptSR来实现文本提示SR。PromptSR采用了扩散模型和预先训练的语言模型(例如T5和CLIP)。我们在生成的文本图像数据集上训练模型。

2023-11-29 19:52:52 925 2

原创 AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion

我们提出了一种具有潜在扩散的一体化图像恢复系统,名为AutoDIR,它可以自动检测和恢复具有多种未知退化的图像。我们的主要假设是,许多图像恢复任务,如超分辨率、运动去模糊、去噪、弱光增强、去雾和去噪,通常可以分解为一些共同的基算子,这些算子可以在不同方向上提高图像质量。AutoDIR旨在通过与多个图像恢复任务的联合训练,学习一个能够执行这些基本算子的统一图像恢复模型。具体而言,AutoDIR由基于CLIP的盲图像质量评估(BIQA)模块、基于潜在扩散的多功能图像恢复(AIR)模块和结构校正模块组成,

2023-11-29 19:07:34 1617

原创 CONTROLLING VISION-LANGUAGE MODELS FOR MULTI-TASK IMAGE RESTORATION

像CLIP这样的视觉语言模型已经显示出对零样本或无标签预测的各种下游任务的巨大影响。然而,当涉及到图像恢复等低水平视觉时,由于输入损坏,它们的性能会急剧下降。在本文中,我们提出了一种退化感知视觉语言模型(DA-CLIP),以更好地将预训练的视觉语言模型转移到低级视觉任务中,作为图像恢复的多任务框架。更具体地说,DA-CLIP训练一个额外的控制器,该控制器调整固定的CLIP图像编码器以预测高质量的特征嵌入。通过交叉关注将嵌入集成到图像恢复网络中,我们能够引导模型学习高保真度图像重建。

2023-11-29 14:30:32 1684 3

原创 Learning Invariant Representation for Unsupervised Image Restoration

近年来,跨域传输被应用于无监督图像恢复任务中。但是,直接应用已有的框架,由于缺乏有效的监督,会导致翻译图像出现域漂移问题。相反,我们提出了一种无监督学习方法,该方法明确地从噪声数据中学习不变表示并重建清晰的观察结果。为此,我们将离散解纠缠表示和对抗性领域自适应引入到一般的领域转移框架中,并借助额外的自监督模块(包括背景和语义一致性约束),在双域约束(如特征域和图像域)下学习鲁棒表示。

2023-09-30 02:38:31 1591

原创 ResShift: Efficient Diffusion Model for Image Super-resolution by Residual Shifting

基于扩散的图像超分辨率(SR)方法由于需要数百甚至数千个采样步骤,导致推理速度较低。现有的加速采样技术不可避免地会在一定程度上牺牲性能,导致SR结果过于模糊。为了解决这个问题,我们提出了一种新颖有效的SR扩散模型,该模型显著减少了扩散步骤的数量,从而消除了推理过程中对后加速的需求及其相关的性能下降。我们的方法构建了一个马尔可夫链,通过移动高分辨率图像和低分辨率图像之间的残差来实现高分辨率图像和低分辨率图像之间的转换,大大提高了转换效率。

2023-09-29 16:42:13 1412 2

原创 Diffusion Autoencoders: Toward a Meaningful and Decodable Representation

扩散概率模型 (DPM) 在图像生成方面取得了显着的质量,可与 GAN 相媲美。但是与 GAN 不同,DPM 使用一组潜在变量,这些变量缺乏语义含义,不能作为其他任务的有用表示。本文探索了使用DPM进行表示学习的可能性,并试图通过自动编码提取输入图像的有意义和可解码的表示。我们的关键思想是使用可学习的编码器来发现高级语义,并使用 DPM 作为解码器来对剩余的随机变化进行建模。我们的方法可以将任何图像编码为两部分潜在编码,其中第一部分在语义上有意义且线性,第二部分捕获随机细节,允许近乎精确的重建。

2023-09-27 20:02:03 568

原创 Denoising Diffusion Autoencoders are Unified Self-supervised Learners

受最近扩散模型进展的启发,这让人想起去噪自编码器,我们研究了它们是否可以通过生成预训练获得分类的判别表示。本文表明扩散模型中的网络,即去噪扩散自编码器(DDAE),是统一的自监督学习器通过对无条件图像生成的预训练,DDAE在没有辅助编码器的情况下已经在其中间层中学习了强线性可分表示,从而使扩散预训练成为生成和判别双重学习的一般方法。为了验证这一点,我们进行了线性探测和微调评估。

2023-09-21 19:16:08 433

原创 ScoreGrad: Multivariate Probabilistic Time Series Forecasting with Continuous Energy-based Generativ

多变量时间序列预测因其智能交通、AIOps等广泛应用而备受关注。生成模型在时间序列建模方面取得了令人印象深刻的结果,因为它们可以对数据分布进行建模并考虑噪声。然而,由于生成模型的功能形式的限制或对超参数的敏感性,许多现有的作品不能被广泛使用。在本文中,我们提出了 ScoreGrad,这是一种基于连续基于能量的生成模型的多元概率时间序列预测框架。ScoreGrad由时间序列特征提取模块和基于条件随机微分方程的分数匹配模块组成。预测可以通过迭代求解逆时 SDE 来实现。据我们所知,ScoreGrad 是第一个。

2023-09-15 11:07:16 271

原创 Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting

在这项工作中,我们提出了TimeGrad,这是一种用于多变量概率时间序列预测的自回归模型,它通过估计梯度来在每个时间步采样数据分布。为此,我们使用了扩散概率模型,这是一类与分数匹配和基于能量的方法密切相关的潜变量模型。我们的模型通过优化数据似然的变分下界来学习梯度,在推断时通过 Langevin 采样将白噪声转化为感兴趣分布的样本,通过实验证明,所提出的自回归去噪扩散模型是实际数据集上具有成千上万个相关维度的多变量概率预测方法的最新技术。

2023-09-15 00:09:20 397

原创 Diffusion Models for Time Series Applications: A Survey

扩散模型是一类基于深度学习的生成模型,在近年来的机器学习社区中崭露头角。在诸如图像合成、视频生成、自然语言处理以及时间序列预测等各种实际应用中,扩散模型表现出卓越的性能,展示了其在许多现有生成技术上的优势。给定目标分布qxq(x)qx中的一些观测数据xxx,生成模型的目标是学习一个生成过程,从qxq(x)qx中产生新样本。为了学习这样的生成过程,大多数扩散模型开始通过注入高斯噪声逐步扰动观测数据,然后应用一个可学习的转换核心进行逆过程以恢复数据。

2023-08-24 02:17:06 2462 1

原创 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode

本文提出了BLIP-2,一种通用且高效的预训练策略,该策略通过使用现成的冻结预训练图像编码器和大型语言模型,从头开始进行视觉-语言预训练。BLIP-2通过轻量级的查询Transformer来弥合模态差距,并通过两个阶段的预训练实现。第一个阶段从中启动视觉-语言的表示学习。第二个阶段从冻结的启动视觉到语言的生成学习。尽管可训练的参数明显少于现有方法,但BLIP-2在各种视觉-语言任务上实现了最先进的性能。

2023-08-23 18:26:05 312

原创 Tiny-Attention Adapter: Contexts Are More Important Than the Number of Parameters

Adapter-tuning是一种范式,通过添加和调整少量新参数,将预训练语言模型转移到下游任务。先前提出的Adapter架构都是前馈神经网络。在本文中,我们研究了使用微小注意力——即具有极小每头维度的注意力作为适配器的效果。我们的微小注意力Adapter学会直接修改每个位置的隐藏状态,其条件是所有其他位置的隐藏状态,这是先前提出的Adapter所未考虑的。此外,我们将其多个注意力头视为专家的混合,并提议在部署期间平均它们的权重,从而进一步减少推断计算成本。

2023-08-21 22:07:34 125

原创 Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification

对比式视觉-语言预训练,也称为CLIP,通过大规模的图像-文本对来学习视觉表示,为zero-shot知识迁移展示了新的范式。它在下游任务上展现出令人瞩目的性能,实现了zeri-shot的知识迁移。为了进一步增强CLIP的适应能力,现有方法提出了微调可学习模块的方法,显著提高了少样本情况下的性能,但也引入了额外的训练时间和计算资源。在本文中,我们提出了一种适用于CLIP的无需训练的少样本分类方法,称为Tip-Adapter。

2023-08-21 20:31:16 364

原创 GlyphControl: Glyph Conditional Control for Visual Text Generation

最近,人们对开发基于扩散的文本到图像生成模型的兴趣日益增长,这些模型能够生成连贯且形式良好的视觉文本。在本文中,我们提出了一种名为GlyphControl的新颖高效方法,用于解决这一任务。与现有方法依赖于像ByT5这样的字符感知文本编码器并需要重新训练文本到图像模型不同,我们的方法利用附加的字形条件信息来增强现成的稳定扩散模型在生成准确视觉文本方面的性能。通过整合字形指令,用户可以根据自己的特定需求自定义生成文本的内容、位置和大小。

2023-06-12 02:13:18 1399

原创 LayoutTransformer: Layout Generation and Completion with Self-attention

我们解决了在各种领域中(如图像、移动应用、文档和3D对象)进行场景布局生成的问题。大多数复杂场景,无论是自然场景还是人工设计的场景,都可以用简单组合的图形基元的有意义排列来表示。生成新的布局或扩展现有布局需要理解这些基元之间的关系。为此,我们提出了LayoutTransformer,这是一个新颖的框架,利用自注意力来学习布局元素之间的上下文关系,并在给定领域中生成新的布局。我们的框架可以从空集或初始种子基元集生成新的布局,并且可以轻松扩展以支持每个布局中的任意数量的基元。

2023-06-11 15:52:38 948

原创 TextDiffuser: Diffusion Models as Text Painters

扩散模型因其出色的生成能力而受到越来越多的关注,但目前在生成准确连贯的文本方面仍存在困难。为了解决这个问题,我们引入了TextDiffuser,重点是生成具有视觉吸引力的文本,并且与背景一致。首先,一个Transformer模型根据文本提示生成关键词的布局,然后扩散模型根据文本提示和生成的布局生成图像。此外,我们还贡献了第一个带有OCR注释的大规模文本图像数据集MARIO-10M,其中包含1000万个图像-文本对,包括文本识别、检测和字符级分割注释。

2023-06-09 00:34:50 1119

原创 An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

文本到图像的模型为通过自然语言引导创作提供了前所未有的自由。然而,目前尚不清楚如何利用这种自由度来生成特定独特概念的图像,修改它们的外观,或将它们组合到新的角色和新颖场景中。换句话说,我们要问:如何利用语言引导的模型将我们的猫变成一幅画,或根据我们最喜欢的玩具想象出一种新产品?在这里,我们提出了一种简单的方法,可以实现这种创造性的自由。我们仅使用用户提供的概念(如物体或风格)的3-5张图像,通过冻结的文本到图像模型的嵌入空间中的新“词”来学习表示它。

2023-06-07 19:31:34 568 1

原创 DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

大型文本到图像模型在AI的演化中取得了显著的飞跃,实现了从给定文本提示中合成高质量、多样化的图像。然而,这些模型缺乏模仿给定参考集中主题外观并在不同环境中合成新的表现形式的能力。在这项工作中,我们提出了一种新的方法,用于“个性化”文本到图像扩散模型。只需输入主题的几张图像,我们对预训练的文本到图像模型进行微调,使其学习将唯一标识符与特定主题绑定。一旦主题嵌入到模型的输出域中,该唯一标识符可以用于在不同场景中合成主题的新颖逼真的图像。

2023-06-07 15:18:03 1780

原创 ControlNet: Adding Conditional Control to Text-to-Image Diffusion Models

我们提出了一种名为ControlNet的神经网络结构,用于控制预训练的大规模扩散模型,以支持额外的输入条件。ControlNet以端到端的方式学习任务特定的条件,并且即使训练数据集较小(< 50k),学习效果也很稳健。此外,训练ControlNet的速度与微调扩散模型的速度一样快,而且该模型可以在个人设备上进行训练。或者,如果有强大的计算集群可用,该模型可以扩展到大量(百万到十亿级)的数据。我们报告了使用ControlNet扩展稳定扩散等大规模扩散模型的结果,以实现诸如边缘映射、分割映射、关键点等条件输入。

2023-06-05 13:33:16 2643

原创 A Unified Conditional Framework for Diffusion-based Image Restoration

最近,扩散概率模型(Diffusion Probabilistic Models,DPMs)在图像生成任务中表现出了非凡的性能,能够生成高度逼真的图像。当将DPMs用于图像恢复任务时,关键的一点在于如何整合条件信息,以引导DPMs生成准确和自然的输出,这在现有的研究中往往被忽视。在本文中,我们提出了一个基于扩散模型的统一条件框架,用于图像恢复。我们利用一个轻量级的UNet来预测初始引导,并使用扩散模型学习引导的残差部分。

2023-06-01 22:57:20 827

原创 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

自然语言处理的一个重要范式是在通用领域数据上进行大规模预训练,然后根据特定任务或领域进行适应性训练。随着我们对模型进行更大规模的预训练,完全微调(重新训练所有模型参数)变得越来越不可行。以GPT-3 175B为例,部署独立的微调模型实例,每个实例有175B个参数,成本过高。我们提出了低秩适应(Low-Rank Adaptation,LoRA)方法,该方法冻结预训练模型的权重,并将可训练的秩分解矩阵注入到Transformer架构的每个层中,从而大大减少了下游任务的可训练参数数量。

2023-06-01 20:51:42 1986

原创 GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures in Text-to-Image Generation

近期,在语言引导图像生成领域取得了令人瞩目的突破,实现了基于用户指令生成高质量和多样化图像。虽然合成效果令人惊叹,但当前图像生成模型的一个重要局限是其在图像中连贯生成文本的能力不足,尤其是对于复杂的字形结构,如中文字符。为了解决这个问题,我们引入了GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型以生成嵌入文本的图像的能力,适用于任何特定语言。

2023-05-31 18:26:57 298

原创 DR2: Diffusion-based Robust Degradation Remover for Blind Face Restoration

传统的盲脸部修复通常使用预定义的退化模型来合成降质的低质量数据进行训练,而实际世界中可能出现更复杂的情况。假设的退化模型与实际情况之间的差距会影响修复效果,输出结果中经常出现伪影。然而,为了覆盖实际情况,将每种类型的退化都包含在训练数据中是昂贵且不可行的。为了解决这个鲁棒性问题,我们提出了基于扩散的鲁棒退化去除器(DR2),首先将退化图像转化为粗糙但退化不变的预测,然后利用增强模块将粗糙预测恢复为高质量图像。

2023-05-23 18:07:30 1310

原创 Towards Coherent Image Inpainting Using Denoising Diffusion Implicit Models (Paper reading)

图像修复是指基于部分显露的参考图像生成完整的、自然的图像的任务。近年来,利用固定扩散模型来解决这一问题一直是人们研究的热点。这些方法通常直接将中间或最终生成的图像的显露区域替换为参考图像或其变体的区域。然而,由于未显示区域没有被直接修改以匹配上下文,因此导致显示区域和未显示区域之间的不一致。为了解决不一致性问题,少数方法引入了严格的贝叶斯框架,但由于计算后验分布时的近似误差,它们往往会在生成的图像和参考图像之间引入失配。在本文中,我们提出了COPAINT,它可以在不引入失配的情况下对整个图像进行一致性修复。

2023-04-20 16:13:51 472

原创 Generative Diffusion Prior for Unified Image Restoration and Enhancement (Paper reading)

现有的图像恢复方法大多利用自然图像的后验分布。然而,它们通常假设已知的退化,并且还需要监督训练,这限制了它们对复杂的实际应用的适应。在这项工作中,我们提出了生成扩散先验(GDP),以无监督采样的方式对后验分布进行有效建模。GDP利用预训练去噪扩散生成模型(DDPM)来解决线性逆、非线性或盲问题。具体而言,GDP系统地探索了一种有条件指导的协议,该协议比常用的指导方式更实用。此外,GDP在去噪过程中有利于优化退化模型的参数,实现图像的盲恢复。

2023-04-19 13:31:45 1332

原创 Denoising Diffusion Probabilistic Models for Robust Image Super-Resolution in the Wild

扩散模型在单图像超分辨率和其他图像到图像的转换任务上显示出了有希望的结果。尽管取得了成功,但在更具挑战性的盲超分辨率任务中,它们的表现并没有超过最先进的GAN模型,在该任务中,输入图像分布不均,退化程度未知。本文介绍了SR3+,一种基于扩散的盲超分辨率模型,建立了一种新的超分辨率模型。为此,我们提倡将自我监督训练与复合的、参数化的退化相结合,用于自我监督训练,并在训练和测试期间增加噪声条件。有了这些创新、大规模卷积架构和大规模数据集,SR3+大大优于SR3。

2023-04-17 14:08:09 1451

原创 Cascaded Diffusion Models for High Fidelity Image Generation (Paper reading)

我们表明,级联扩散模型能够在类条件ImageNet生成基准上生成高保真图像,而无需任何辅助图像分类器来提高样本质量。级联扩散模型包括多个扩散模型的pipeline,这些扩散模型生成分辨率不断提高的图像,从最低分辨率的标准扩散模型开始,然后是一个或多个超分辨率扩散模型,这些超分辨率扩散模型依次对图像进行上采样并添加更高分辨率的细节。我们发现级联pipeline的样本质量主要依赖于条件增强,这是我们提出的超分辨率模型的低分辨率条件输入的数据增强方法。

2023-04-14 17:42:36 628

原创 Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (Paper reading)

我们提出了Imagen,一个文本到图像的扩散模型,具有前所未有的写实主义程度和深度的语言理解。Imagen建立在理解文本的大型变压器语言模型的基础上,并依赖于在高保真图像生成中扩散模型的强度。我们的关键发现是,在纯文本语料库上预训练的通用大型语言模型(例如T5)在编码用于图像合成的文本方面惊人地有效:在Imagen中增加语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像文本对齐。

2023-04-14 00:22:28 1160

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除