扩散模型~合集2

# 风格迁移和人像生成汇总

用于经典AIGC方向

风格迁移

1、DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations

基于文本到图像扩散模型在迁移参考风格方面具有巨大潜力。然而,当前基于编码器的方法在迁移风格时显著损害了文本到图像模型的文本可控性。本文提出DEADiff来解决这个问题,采用以下两种策略:1)一种解耦参考图像的风格和语义的机制。解耦后的特征表示首先由不同文本描述指导的Q-Formers提取。然后,它们被注入到交叉注意力层的相互排除的子集中,以实现更好的分解。2)一种非重构学习方法。Q-Formers使用成对图像而不是相同的目标进行训练,其中参考图像和真实图像具有相同的风格或语义。

展示DEADiff在视觉风格化结果上取得了最佳效果,并在量化和定性上表现出文本可控性与与参考图像风格相似性之间的最佳平衡。https://tianhao-qi.github.io/DEADiff/

2、Deformable One-shot Face Stylization via DINO Semantic Guidance

本文针对One-shot人脸风格化问题进行研究,关注外观和结构的同时考虑。探索了与传统的单幅图像风格参考不同的变形感知人脸风格化。方法核心是利用自监督视觉transformer,具体来说是DINO-ViT,建立起强大而一致的人脸结构表示,涵盖真实和风格化领域。风格化过程首先通过将StyleGAN生成器适应到具有变形感知能力的状态,通过集成空间transformer(STN)来实现。然后,在DINO语义的引导下,引入两个创新的约束来指导生成器的微调:i)方向变形损失,调整DINO空间中的方向向量;ii)基于DINO令牌自相似性的相对结构一致性约束,确保多样化生成。此外,采用样式混合来使颜色生成与参考图像一致,减少不一致的对应关系。

方法为One-shot人脸风格化提供了更好的可变形性能,并在大约10分钟的微调时间内实现了显著的效率。广泛的定性和定量比较证明方法人脸风格化方法方面的优越性。https://github.com/zichongc/DoesFS

3、One-Shot Structure-Aware Stylized Image Synthesis

虽然基于GAN的模型在图像风格化任务上取得成功,但在对各种输入图像进行风格化时往往难以保持结构的完整性。最近,扩散模型已被用于图像风格化,但仍然缺乏保持输入图像原始质量的能力。

本文提出OSASIS:一种新的One-Shot风格化方法,具有结构保持的鲁棒性。展示了OSASIS能够有效地将图像的语义和结构解耦,使其能够控制给定输入中的内容和风格水平。将OSASIS应用于各种实验设置,包括使用域外参考图像进行风格化以及使用文本驱动的操作进行风格化。结果表明,OSASIS在风格化方法方面表现出色,特别是对于训练中很少遇到的输入图像,为扩散模型风格化提供了有希望的解决方案。

人像生成

4、Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis

扩散模型已用于姿势引导的人物图像合成中。而现有方法仅仅将人物外貌与目标姿势对齐,由于在源人物图像上缺乏高层语义理解,容易出现过拟合的问题。

本文提出一种用于姿势引导的人物图像合成的新方法——粗到精的潜在扩散(CFLD)。在缺乏图像-文本配对和文本提示的情况下,开发一种纯粹基于图像的训练范式,用于控制预训练文本到图像扩散模型的生成过程。设计一个感知精化解码器,用于逐渐优化一组可学习的查询并提取人物图像的语义理解作为粗粒度提示。这使得在不同阶段解耦细粒度外貌和姿势信息控制成为可能,从而避免潜在的过拟合问题。

为生成更真实的纹理细节,提出一种混合粒度注意力模块,用于将多尺度的细粒度外貌特征编码为偏差项,以增强粗粒度提示。在DeepFashion基准测试上的定量和定性实验证明方法在PGPIS方面相对于现有技术的优越性。https://github.com/YanzuoLu/CFLD

5、High-fidelity Person-centric Subject-to-Image Synthesis

基于目标主体的图像生成方法,生成以人物为中心的图像面临着重大挑战。原因在于它们通过对共同预训练扩散进行微调来学习语义场景和人物生成,这涉及到无法调和的训练不平衡。为了生成逼真的人物,它们需要对预训练模型进行充分调整,这不可避免地导致模型忘记丰富的语义场景先验,并且使场景生成过度适应训练数据。此外,即使经过充分微调,这些方法仍然无法生成高保真度的人物,因为场景和人物生成的联合学习也会导致质量的折衷。

本文提出Face-diffuser,一种有效的协作生成流水线,以消除上述训练不平衡和质量折衷。具体而言,首先开发两种专门的预训练扩散模型,即文本驱动扩散模型(TDM)和主体增强扩散模型(SDM),用于场景和人物的生成。采样过程分为三个顺序阶段,即语义场景构建、主体-场景融合和主体增强。第一和最后阶段分别由TDM和SDM完成。主体-场景融合阶段通过一种新且高效的机制实现,即基于显著性自适应噪声融合(SNF)。具体来说,它基于本文核心观察结果,即分类器无关指导响应与生成图像的显著性之间存在强大的联系。在每个时间步骤中,SNF利用了每个模型的独特优势,并以一种自适应于显著性的方式自动地进行两个模型预测噪声的空间混合,所有这些都可以无缝地集成到DDIM采样过程中。        whaosoft aiot http://143ai.com

实验证实Face-diffuser在生成高保真度人物图像方面的卓越效果。https://github.com/CodeGoat24/Face-diffuser

6、Towards Effective Usage of Human-Centric Priors in Diffusion Models for Text-based Human Image Generation

传统的文本到图像扩散模型在生成准确的人物图像方面存在困难,例如不自然的姿势或不成比例的肢体。现有方法大多通过在模型微调阶段添加额外的图像或人体中心先验(例如姿势或深度图)来解决这个问题。本文探讨的是将这些人体中心先验直接集成到模型微调阶段,从而在推理阶段消除额外条件的需求。

通过引入人体中心对齐损失,在交叉注意力图中增强来自文本提示的与人相关的信息,实现了这一想法。为在微调过程中保证语义细节丰富性和人体结构准确性,根据对交叉注意力层的深入分析,引入尺度感知和分步约束。

实验结果表明,方法在基于用户编写的提示语生成高质量人物图像方面取得较大改进。https://hcplayercvpr2024.github.io/

# 图像超分、图像恢复汇总

解决图像low-level任务的思路

1、Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder

超分辨率(SR)和图像生成是计算机视觉中重要的任务,在现实应用中得到广泛采用。然而,大多数现有方法仅在固定放大倍数下生成图像,并且容易出现过平滑和伪影。此外,在输出图像的多样性和不同尺度下的一致性方面也不足。大部分相关工作应用了隐式神经表示(INR)到去噪扩散模型中,以获得连续分辨率的多样化且高质量的SR结果。由于该模型在图像空间中操作,所以产生分辨率越大的图像,需要的内存和推理时间也越多,并且它也不能保持尺度特定的一致性。

本文提出一种新流程,可在任意尺度上对输入图像进行超分辨率处理或从随机噪声生成新图像。方法由一个预训练的自编码器、一个潜在扩散模型和一个隐式神经解码器以及它们的学习策略组成。方法采用潜在空间中的扩散过程,因此高效且与由MLP在任意尺度上解码的输出图像空间保持对齐。更具体说,任意尺度解码器是由预训练自编码器的无上采样对称解码器和局部隐式图像函数(LIIF)串联而成的。通过去噪和对齐损失联合学习潜在扩散过程。输出图像中的误差通过固定解码器进行反向传播,提高输出质量。

通过在包括图像超分辨率和任意尺度上的新图像生成这两个任务上使用多个公共基准测试进行广泛实验,方法在图像质量、多样性和尺度一致性等指标上优于相关方法。在推理速度和内存使用方面,它比相关先前技术明显更好。

2、Diffusion-based Blind Text Image Super-Resolution

恢复退化的低分辨率文本图像是一项具有挑战性的任务,特别是在现实复杂情况下处理带有复杂笔画和严重退化的中文文本图像。保证文本的保真度和真实性风格对于高质量的文本图像超分辨率非常重要。最近,扩散模型在自然图像合成和恢复方面取得成功,因为它们具有强大的数据分布建模能力和数据生成能力。

这项工作提出一种基于图像扩散模型(IDM)的文本图像恢复方法,可以恢复带有真实风格的文本图像。对于扩散模型来说,它们不仅适用于建模真实的图像分布,而且也适用于学习文本的分布。由于文本先验对于根据现有艺术品保证恢复的文本结构的正确性非常重要,还提出了一种文本扩散模型(TDM)用于文本识别,可以指导IDM生成具有正确结构的文本图像。进一步提出一种多模态混合模块(MoM),使这两个扩散模型在所有扩散步骤中相互合作。

对合成和现实世界数据集的广泛实验证明,基于扩散的盲文本图像超分辨率(DiffTSR)可以同时恢复具有更准确的文本结构和更真实的外观的文本图像。

3、Text-guided Explorable Image Super-resolution

本文介绍零样本文本引导的开放域图像超分辨率解决方案的问题。目标是允许用户在不明确训练这些特定退化的情况下,探索各种保持与低分辨率输入一致的、语义准确的重建结果。

提出两种零样本文本引导超分辨率的方法,一种是修改文本到图像(T2I)扩散模型的生成过程,以促进与低分辨率输入的一致性,另一种是将语言引导融入零样本扩散式恢复方法中。展示了这些方法产生的多样化解决方案与文本提示所提供的语义意义相匹配,并且保持与退化输入的数据一致性。评估提出的基线方法在极端超分辨率任务上的任务表现,并展示了在恢复质量、多样性和解决方案的可探索性方面的优势。

4、Boosting Image Restoration via Priors from Pre-trained Models

以CLIP和稳定扩散为代表的使用大规模训练数据的预训练模型,在图像理解和从语言描述生成方面展现显著性能。然而,它们在图像恢复等低级任务中的潜力相对未被充分探索。本文探索这些模型来增强图像恢复。

由于预训练模型的现成特征(off-the-shelf features,OSF)并不能直接用于图像恢复,提出一个学习额外的轻量级模块——预训练引导细化模块(Pre-Train-Guided Refinement Module,PTG-RM),用于通过OSF改进目标恢复网络的恢复结果。PTG-RM由两个组成部分组成,预训练引导空间变化增强(Pre-Train-Guided Spatial-Varying Enhancement,PTG-SVE)和预训练引导通道-空间注意力(Pre-TrainGuided Channel-Spatial Attention,PTG-CSA)。PTG-SVE可以实现最佳的短和长距离神经操作,而PTG-CSA增强了与恢复相关的空间-通道注意力。

实验证明,PTG-RM以其紧凑的体积(小于1M参数)有效地增强了不同任务中各种模型的恢复性能,包括低光增强、去雨、去模糊和去噪。

5、Image Restoration by Denoising Diffusion Models with Iteratively Preconditioned Guidance

训练深度神经网络已成为解决图像恢复问题的常用方法。对于每个模型训练一个“任务特定”的网络的替代方法是,使用预训练的深度去噪器仅在迭代算法中强加信号先验,而无需额外训练。最近,这种方法基于采样的变体在扩散/基于分数的生成模型兴起时变得流行起来。

本文提出一种新的引导技术,基于预处理,可以沿着恢复过程从基于BP的引导过渡到基于最小二乘的引导。所提出方法对噪声具有鲁棒性,而且实施起来比替代方法更简单(例如,不需要SVD或大量迭代)。将其应用于优化方案和基于采样的方案,并展示其在图像去模糊和超分辨率方面相比现有方法的优势。

6、Diff-Plugin: Revitalizing Details for Diffusion-based Low-level Tasks

在大规模数据集上训练的扩散模型取得显著进展。然而,由于扩散过程中的随机性,它们经常难以处理需要保留细节的不同低层次任务。为克服这个限制,提出一个新的Diff-Plugin框架,使单个预训练的扩散模型能够在各种低层次任务中生成高保真度的结果。

具体来说,首先提出一个轻量级的Task-Plugin模块,采用双分支设计,提供任务特定的先验知识,引导扩散过程中的图像内容保留。然后,提出一个Plugin-Selector,可以根据文本指令自动选择不同的Task-Plugin,允许用户通过自然语言指示进行多个低层次任务的图像编辑。

在8个低层次视觉任务上进行大量实验结果表明,Diff-Plugin在现实场景中比现有方法表现优越。消融实验证实了Diff-Plugin在不同数据集大小下的稳定性、可调度性和支持鲁棒训练的特点。https://yuhaoliu7456.github.io/Diff-Plugin/

7、Selective Hourglass Mapping for Universal Image Restoration Based on Diffusion Model

通用图像恢复,一项实际且有潜力的计算机视觉任务,适用于实际应用。这一任务主要挑战是同时处理不同的退化分布。现有方法主要利用任务特定条件(例如提示)来指导模型单独学习不同的分布,称为多部分映射。然而,对于通用模型学习来说,这种方法并不适用,因为它忽视了不同任务之间的共享信息。

这项工作基于扩散模型提出一种先进的选择性沙漏映射策略,称为DiffUIR。DiffUIR具有两个新的考虑因素。首先,为模型提供强大的条件指导,以获得精确的扩散模型生成方向(选择性)。更重要的是,DiffUIR将一种灵活的共享分布项(SDT)巧妙地集成到扩散算法中,逐渐将不同的分布映射到一个共享分布中。在反向过程中,结合SDT和强大的条件指导,DiffUIR迭代地将共享分布引导到具有高图像质量的任务特定分布(沙漏)。

通过只修改映射策略,在五个图像恢复任务、通用设置的22个基准数据集和零样本泛化设置上实现了最先进的性能。令人惊讶的是,仅用轻量级模型(仅为0.89M),就能实现出色的性能。https://github.com/iSEE-Laboratory/DiffUIR

# 图像检测类,diffusion解决detection任务

目标跟踪

1、Delving into the Trajectory Long-tail Distribution for Muti-object Tracking

多目标跟踪(Multiple Object Tracking,MOT)是计算机视觉领域中一个关键领域,有广泛应用。当前研究主要集中在跟踪算法的开发和后处理技术的改进上。然而,对跟踪数据本身的特性缺乏深入的研究。

本研究首次对跟踪数据的分布模式进行探索,并发现现有 MOT 数据集中存在明显的长尾分布问题。发现不同行人分布存在显著不平衡现象,将其称为“行人轨迹长尾分布”。针对这一挑战,提出一种专门设计用于减轻这种分布影响的策略。具体而言,提出两种数据增强策略,包括静态摄像机视图数据增强(SVA)和动态摄像机视图数据增强(DVA),针对视点状态,以及面向 Re-ID 的 Group Softmax(GS)模块。SVA 是为了回溯并预测尾部类别的行人轨迹,而 DVA 则使用扩散模型改变场景的背景。GS 将行人划分为不相关的组,并对每个组进行 softmax 操作。

策略可以集成到许多现有的跟踪系统中,实验证实方法在降低长尾分布对多目标跟踪性能的影响方面的有效性。https://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOT

目标检测

2、SAFDNet: A Simple and Effective Network for Fully Sparse 3D Object Detection

基于 LiDAR 的三维物体检测,在自动驾驶中起关键作用。目前已有的高性能三维物体检测器通常在骨干网络和预测头中构建密集特征图。然而,随着感知范围增加,密集特征图带来的计算成本呈二次增长,使得这些模型很难扩展到长距离检测。最近一些研究尝试构建完全稀疏的检测器来解决这个问题,然而所得模型要么依赖于复杂的多阶段流水线,要么表现不佳。

本文提出 SAFDNet,简单高效,专为完全稀疏的三维物体检测而设计。在 SAFDNet 中,设计了一种自适应特征扩散策略来解决中心特征丢失的问题。在 Waymo Open、nuScenes 和 Argoverse2 数据集上进行大量实验证明,SAFDNet 在前两个数据集上的性能略优于先前的 SOTA,但在具有长距离检测特点的最后一个数据集上表现更好,验证 SAFDNet 在需要长距离检测的场景中的有效性。

在 Argoverse2 上,SAFDNet 在速度上比先前最好的混合检测器 HEDNet 快 2.1 倍,并且相对于先前最好的稀疏检测器 FSDv2 提高了 2.1% 的 mAP,速度提高了 1.3 倍。https://github.com/zhanggang001/HEDNet

3、DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception

当前的感知模型严重依赖于资源密集型数据集,因此需要创新性的解决方案。利用最近在扩散模型和合成数据方面的进展,通过构造各种标签图像输入,合成数据有助于下游任务。尽管之前的方法已经分别解决了生成和感知模型的问题,但是 DetDiffusion 是第一个在生成有效数据的感知模型方面进行了整合的方法。

为增强感知模型的图像生成能力,引入感知损失(P.A. loss)通过分割来改善质量和可控性。为提高特定感知模型的性能,方法通过提取和利用感知感知属性(P.A. Attr)来定制数据增强。来自目标检测任务的实验结果凸显了 DetDiffusion 在布局导向生成方面的出色性能,显著提高了下游检测性能。

4、SDDGR: Stable Diffusion-based Deep Generative Replay for Class Incremental Object Detection

在类别增量学习(CIL)领域,generative replay已成为缓解灾难性遗忘的方法,随着生成模型的不断改进,越来越受到关注。然而,在类别增量物体检测(CIOD)中的应用受到很大限制,主要是由于涉及多个标签的场景的复杂性。

本文提出一种名为stable diffusion deep generative replay(SDDGR)的用于 CIOD 的新方法。方法利用基于扩散的生成模型与预训练的文本到扩散网络相结合,生成真实多样的合成图像。SDDGR采用迭代优化策略,生成高质量的旧类别样本。此外,采用L2知识蒸馏技术,以提高合成图像中先前知识的保留。此外,方法还包括对新任务图像中的旧对象进行伪标签,以防止将其错误分类为背景元素。

对COCO 2017数据集的大量实验表明,SDDGR在各种CIOD场景下明显优于现有算法,达到了新的技术水平。

关键点检测

5、Pose-Guided Self-Training with Two-Stage Clustering for Unsupervised Landmark Discovery

无监督的Unsupervised landmarks discovery(ULD)是具有挑战性的计算机视觉问题。为利用扩散模型在ULD任务中的潜力,首先,提出一种基于随机像素位置的简单聚类的零样本ULD基线,通过最近邻匹配提供了比现有ULD方法更好的结果。其次,在零样本性能的基础上,通过自训练和聚类开发了一种基于扩散特征的ULD算法,以显著超越以前的方法。第三,引入一个基于生成潜在姿势代码的新代理任务,并提出了一个两阶段的聚类机制,以促进有效的伪标签生成,从而显著提高性能。

总的来说,方法在四个具有挑战性的基准测试(AFLW、MAFL、CatHeads 和 LS3D)上一贯优于现有的最先进方法。

deepfake检测

6、Latent Reconstruction Error Based Method for Diffusion-Generated Image Detection

扩散模型极大提高了图像生成质量,使得真实图像和生成图像之间越来越难以区分。然而,这一发展也引发了重大的隐私和安全问题。针对这一问题,提出一种新的潜变量重构误差引导特征优化方法(Latent REconstruction error guided feature REfinement, LaRE2),用于检测生成图像。

提出潜变量重构误差(Latent Reconstruction Error,LaRE),一种基于重构误差的潜在空间特征,用于生成图像检测。LaRE 在特征提取效率方面超过了现有方法,同时保留了区分真实与伪造图像所需的关键线索。为了利用 LaRE,提出一个带有误差引导特征优化模块(EGRE)的方法,通过 LaRE 引导图像特征的优化,以增强特征的辨别力。

EGRE 采用对齐然后细化机制,可以从空间和通道角度有效地细化图像特征,以进行生成图像检测。在大规模 GenImage 基准测试上的大量实验证明LaRE2 的优越性,在 8 个不同的图像生成器中超过了最好的 SoTA 方法,平均 ACC/AP 高达 11.9%/12.1%。LaRE 在特征提取成本方面也超越了现有方法,速度提升8倍。

异常检测

7、RealNet: A Feature Selection Network with Realistic Synthetic Anomaly for Anomaly Detection

自监督特征重建方法在工业图像异常检测和定位方面显示出有希望进展。这些方法在合成真实且多样化的异常样本以及解决预训练特征的特征冗余和预训练偏差方面仍然面临挑战。

这项工作提出 RealNet,一种具有现实合成异常和自适应特征选择的特征重建网络。它包含三个关键创新:首先,提出强度可控扩散异常合成(SDAS),一种基于扩散过程的合成策略,能够生成具有不同异常强度的样本,模仿真实异常样本的分布。其次,开发了异常感知特征选择(AFS),一种选择具有代表性和判别性的预训练特征子集的方法,以提高异常检测性能,同时控制计算成本。第三,引入了重建残差选择(RRS),一种自适应选择判别残差以跨多个粒度级别全面识别异常区域的策略。

在四个基准数据集上评估 RealNet,结果表明与当前最先进的方法相比,图像 AUROC 和像素 AUROC 都有改进。https://github.com/cnulab/RealNet

# 可控文生图text-to-image

1、ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models

3D资产生成正受到大量关注,受到最近文本引导的2D内容创建成功的启发,现有的文本到3D方法使用预训练文本到图像扩散模型来解决优化问题,或在合成数据上进行微调,这往往会导致没有背景的非真实感3D物体。

本文提出利用预训练的文本到图像模型作为先验,并从真实世界数据中单一去噪过程中学习生成多视角图像。具体而言,将3D体渲染和跨帧注意力层集成到现有的文本到图像模型的每个块中。此外,设计一种自回归生成,可以从任意视点渲染出更具3D一致性的图像。使用真实世界的物体数据集来训练模型,并展示了它生成具有各种高质量形状和纹理的实例的能力。

与现有方法相比,生成的结果一致,并且具有良好的视觉质量(FID减少30%,KID减少37%)。https://lukashoel.github.io/ViewDiff/

2、NoiseCollage: A Layout-Aware Text-to-Image Diffusion Model Based on Noise Cropping and Merging

布局感知的文本到图像生成,是一种生成反映布局条件和文本条件的多物体图像的任务。当前的布局感知的文本到图像扩散模型仍然存在一些问题,包括文本与布局条件之间的不匹配以及生成图像的质量降低。

本文提出一种新的布局感知的文本到图像扩散模型,称为NoiseCollage,以解决这些问题。在去噪过程中,NoiseCollage独立估计各个物体的噪声,然后将它们裁剪和合并为一个噪声。这个操作有助于避免条件不匹配,换句话说,它可以将正确的物体放在正确的位置。

定性和定量评估结果表明,NoiseCollage优于几种最先进的模型。还展示了NoiseCollage可以与ControlNet集成,使用边缘、草图和姿势骨架作为附加条件。实验结果表明,这种集成可以提高ControlNet的布局准确性。https://github.com/univ-esuty/noisecollage

3、Discriminative Probing and Tuning for Text-to-Image Generation

尽管在文本-图像生成(text-to-image generation)方面取得了进步,但之前方法经常面临文本-图像不对齐问题,如生成图像中的关系混淆。现有解决方案包括交叉注意操作,以更好地理解组合或集成大型语言模型,以改进布局规划。然而,T2I模型的固有对齐能力仍然不足。

通过回顾生成建模和判别建模之间的联系,假设T2I模型的判别能力可能反映了它们在生成过程中的文本-图像对齐能力。鉴于此,提倡增强T2I模型的判别能力,以实现更精确的文本-图像对齐以进行生成。

提出一个基于T2I模型的判别适配器,以探索他们在两个代表性任务上的判别能力,并利用判别微调来提高他们的文本-图像校准。鉴别适配器的好处是,自校正机制可以利用鉴别梯度,在推理过程中更好地将生成的图像与文本提示对齐。

对三个基准数据集(包括分布内和分布外场景)的综合评估表明,方法具有优越的生成性能。同时,与其他生成模型相比,它在两个判别任务上实现了最先进的判别性能。https://github.com/LgQu/DPT-T2I

4、Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs

文本到视频(T2V)合成在学术界越来越受关注,其中新出现的扩散模型(DM)在性能上显示出比以往方法更强大的表现。虽然现有的最先进DM在实现高分辨率视频生成方面表现出色,但在复杂的时间动态建模方面(如动作发生紊乱、粗糙的视频动作)仍然存在很大局限性。

这项工作研究强化DM对视频动态感知的方法,用于高质量的T2V生成。受人类直觉的启发,设计一种新的动态场景管理器(称为Dysen)模块,包括(步骤1)从输入文本中提取具有适当时间顺序的关键动作,(步骤2)将动作计划转化为动态场景图(DSG)表示,和(步骤3)丰富DSG中的场景以提供充分和合理的细节。通过在上下文学习中利用现有的强大LLMs(如ChatGPT),Dysen实现了(几乎)与人类水平的动态时间理解。最后,具有丰富动作场景细节的视频DSG被编码为细粒度的时空特征,集成到基础T2V DM中进行视频生成。

在流行的T2V数据集上的实验表明,Dysen-VDM始终以显着的优势超越以前的方法,特别是在复杂动作场景中。

5、Face2Diffusion for Fast and Editable Face Personalization

面部个性化,旨在将来自图像的特定面部插入预先训练的文本到图像扩散模型中。然而,以往的方法在保持身份相似性和可编辑性方面仍然具有挑战,因为它们过拟合于训练样本。

本文提出一种用于高可编辑性面部个性化的Face2Diffusion(F2D)方法。F2D背后的核心思想是从训练流程中去除与身份无关的信息,以防止过拟合问题并提高编码面部的可编辑性。F2D包含以下三个新颖的组成部分:1)多尺度身份编码器提供了良好分离的身份特征,同时保持多尺度信息的好处,从而提高了摄像机姿势的多样性。2)表情引导将面部表情与身份进行分离,提高了面部表情的可控性。3)类别引导的去噪正则化鼓励模型学习如何对面部进行去噪,从而提高了背景的文本对齐性。

在FaceForensics++数据集和各种提示上进行的广泛实验表明,与先前最先进的方法相比,方法在身份和文本保真度之间取得了更好的平衡。https://github.com/mapooon/Face2Diffusion

6、LeftRefill: Filling Right Canvas based on Left Reference through Generalized Text-to-Image Diffusion Model

本文提出LeftRefill,一种新方法,有效利用大型文本到图像(T2I)扩散模型进行参考引导图像合成。顾名思义,LeftRefill将参考视图和目标视图水平拼接在一起作为整体输入。参考图像占据左侧,而目标画布位于右侧。然后,LeftRefill根据左侧参考和特定的任务指令绘制右侧的目标画布。这种任务形式与上下文修复类似,类似于人工画家的操作。

这种新形式有效地学习了参考和目标之间的结构和纹理对应关系,而无需其他图像编码器或适配器。通过T2I模型中的交叉注意力模块注入任务和视图信息,并通过重新排列的自注意力模块进一步展示了多视图参考能力。这使得LeftRefill能够作为一个通用模型执行一致的生成,而无需在测试时进行微调或模型修改。因此,LeftRefill可以看作是一个简单而统一的框架来解决参考引导合成的问题。

作为示例,利用LeftRefill来解决两个不同的挑战:参考引导修复和新视角合成,基于预先训练的StableDiffusion模型。https://github.com/ewrfcas/LeftRefill

7、InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models

大规模的图像到文本(T2I)扩散模型,展示出了生成基于文本描述的连贯图像能力,为内容生成提供广泛应用。尽管已有一定可控性,如对象定位、姿势和图像轮廓,但控制所生成内容中对象之间相互作用方面,仍存差距。在生成图像中控制对象之间的相互作用可能产生有意义的应用,例如创建具有交互式角色的现实场景。

这项工作研究将T2I扩散模型与Human-Object Interaction(HOI)信息进行条件化的问题,该信息由三元标签(人、动作、对象)和相应的边界框组成。提出一种名为InteractDiffusion的交互控制模型,它将现有的预训练T2I扩散模型扩展到能够更好地对交互进行条件控制。具体而言,对HOI信息进行tokenize,并通过交互嵌入来学习它们之间的关系。对训练HOI tokens到视觉tokens的条件化自注意层进行了训练,从而更好地对现有的T2I扩散模型进行条件化。

模型具有控制交互和位置的能力,并在HOI检测得分方面远远优于现有的基准模型,以及在FID和KID方面具有更好的保真度。https://jiuntian.github.io/interactdiffusion/

8、MACE: Mass Concept Erasure in Diffusion Models

大规模文本到图像扩散模型的快速扩张引起了人们对其潜在误用创造有害或误导性内容的日益关注。本文提出一种名为MACE的微调框架,用于MAss Concept Erasure(MACE)任务。该任务旨在防止模型在提示时生成具有不需要的概念的图像。现有的概念消除方法通常只能处理少于五个概念,同时很难在概念同义词(广义性)的消除和无关概念(特异性)的保留之间找到平衡。相比之下,MACE通过成功将消除范围扩大到100个概念,并在广义性和特异性之间实现了有效的平衡来实现差异。这是通过利用闭合形式的交叉注意力细化和LoRA微调来实现的,共同消除不需要的概念的信息。

此外,MACE在没有相互干扰的情况下整合了多个LoRA。在四个不同的任务中对MACE进行了广泛的评估:目标消除、名人消除、明确内容消除和艺术风格消除。结果表明,在所有评估任务中,MACE超过了之前的方法。https://github.com/Shilin-LU/MACE

9、MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis

提出一个多实例生成(MIG)任务,同时在一张图像中生成具有多样控制的多个实例。给定一组预定义的坐标及其相应的描述,该任务是确保生成的实例准确位于指定的位置,并且所有实例的属性都与其相应的描述相符。这扩展了当前单实例生成研究的范围,将其提升到一个更多样化和实用的维度。

受到分而治之思想的启发,引入了一种名为多实例生成控制器(MIGC)的创新方法来应对MIG任务的挑战。首先,将MIG任务分解为几个子任务,每个子任务涉及一个实例的着色。为了确保每个实例的精确着色,引入了一种实例增强注意力机制。最后,聚合所有着色的实例,为准确生成多个实例的稳定扩散提供必要的信息(SD)。为了评估生成模型在MIG任务上的表现,提供一个COCO-MIG基准测试以及一个评估流程。

在提出的COCO-MIG基准测试以及各种常用基准测试上进行了大量实验。评估结果展示了模型在数量、位置、属性和交互方面的出色控制能力。https://migcproject.github.io/

10、One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications

商业和开源扩散模型(DMs)在文本到图像生成中的普遍使用引发了风险缓解,以防止不需要的行为。学术界已有的概念消除方法都是基于完全参数或基于规范的微调,从中观察到以下问题:1)向侵蚀方向的生成变化:目标消除过程中的参数漂移会导致生成过程中的变化和潜在变形,甚至会以不同程度侵蚀其他概念,这在多概念消除的情况下更为明显;2)无法转移和部署效率低下:以往的模型特定概念消除阻碍了概念的灵活组合和对其他模型的免费转移,导致部署的成本随着部署场景的增加而线性增长。

为实现非侵入式、精确、可定制和可转移的消除,将消除框架建立在一维适配器上,一次性从大多数DMs中消除多个概念,跨多种消除应用场景。概念-半渗透结构被注入到任何DM中作为膜(SPM),以学习有针对性的消除,并通过一种新的潜在锚定微调策略有效缓解变化和侵蚀现象。一旦获得,SPMs可以灵活组合并插入到其他DM中,无需特定的重新微调,能够及时高效地适应各种场景。在生成过程中,激活传输机制动态调节每个SPM的渗透性以响应不同的输入提示,进一步最小化对其他概念的影响。

在大约40个概念、7个DM和4个消除应用上的定量和定性结果证明了SPM的出色消除能力。https://lyumengyao.github.io/projects/spm

11、FlashEval: Towards Fast and Accurate Evaluation of Text-to-image Diffusion Generative Models

近年来,文本到图像生成模型的发展取得重大进展。评估生成模型的质量是开发过程中的重要步骤之一。评估过程可能会消耗大量的计算资源,使得所需的模型性能定期评估(例如监控训练进度)变得不切实际。因此寻求通过选择文本图像数据集的代表性子集来提高评估效率。

本文系统研究设计选择,包括选择标准(纹理特征或基于图像的指标)和选择粒度(提示级别或集合级别)。发现之前关于训练数据子集选择的工作中的见解并不能推广到这个问题,因此提出 FlashEval,一种针对评估数据选择而定制的迭代搜索算法。展示 FlashEval 对具有各种配置的扩散模型进行排名的有效性,包括 COCO 和 DiffusionDB 数据集上的架构、量化级别和采样器。搜索的 50 项子集可以实现与随机采样的 500 项子集相当的评估质量,以在未见过的模型上进行 COCO 标注,从而实现 10 倍的评估加速。后续将发布这些常用数据集的压缩子集,以帮助促进扩散算法的设计和评估,并开源 FlashEval 作为压缩未来数据集的工具。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值