在之前的文章中已经和大家介绍过小红书在风格保持方面的优秀工作InstantID和InstantStyle,感兴趣的小伙伴可以点击下面👇链接阅读~

小红书InstantID来了, 一张照片几秒钟就能生成个性化图片, 无缝衔接Stable Diffusion)

InstantID作者新作:InstantStyle风格保持项目发布,一个强化版的IP-Apadter来了!

如今,小红书团队发布进阶的风格保持项目InstantStyle-Plus。在原来 InstantStyle 的基础上增加了两种方法来保持原图的结构:

  • 用"反向噪声"来初始化图片生成过程,;
  • 用"Tile ControlNet"来控制生成过程。

使用了全局的图像适配器保持语意内容,比如人物的身份、性别、年龄等。

InstantStyle-Plus:风格转移与内容保留在文本到图像的生成_AIGC

相关链接

论文地址:https://arxiv.org/abs/2407.00788

代码地址: https://github.com/instantX-research/InstantStyle-Plus

试用链接:https://huggingface.co/spaces/InstantX/InstantStyle

论文阅读

InstantStyle-Plus:风格转移与内容保留在文本到图像的生成_图像生成_02

摘要

风格迁移是一种创造性的过程,旨在创建一幅既保留原始图像的精髓又包含另一种图像的视觉风格的图像。尽管扩散模型在个性化主题驱动或风格驱动的应用中表现出令人印象深刻的生成能力,但现有的最先进方法在实现内容保存和风格增强之间的无缝平衡方面仍然遇到困难。例如,放大风格的影响力往往会破坏内容的结构完整性。

InstantStyle-Plus:风格转移与内容保留在文本到图像的生成_图像生成_03

为了应对这些挑战,我们将风格迁移任务解构为三个核心元素:

  • 风格,关注图像的美学特征;
  • 空间结构,涉及视觉元素的几何排列和组成;
  • 语义内容,捕捉图像的概念意义。

在这些原则的指导下,我们引入了 InstantStyle-Plus,这是一种优先考虑原始内容完整性同时无缝集成目标风格的方法。具体来说,我们的方法利用尖端的 InstantStyle 框架,通过高效、轻量级的过程实现风格注入。为了加强内容保存,我们使用反转内容潜在噪声和多功能即插即用图块 ControlNet 来启动该过程,以保留原始图像的固有布局。我们还整合了一个全局语义适配器来增强语义内容的保真度。为了防止风格信息的淡化,我们使用了风格提取器作为鉴别器来提供补充风格指导。

方法

在本研究中,我们专注于更实用的应用:保持原始内容完整性的风格转换,而不是增强传统的个性化或风格化的文本到图像合成。我们将此任务分解为三个子任务:风格注入、空间结构保存和语义内容保存。

InstantStyle-Plus:风格转移与内容保留在文本到图像的生成_风格保持_04

对于风格融合,我们遵循 InstantStyle 的方法,将风格特征专门注入特定于风格的块中。为了保留内容,我们使用反转的内容噪声进行初始化,并使用预先训练的 Tile ControlNet 来保持空间构图。为了实现语义完整性,为内容图像集成了一个图像适配器。为了协调内容和风格,我们引入了一个风格鉴别器,利用风格损失在整个去噪过程中改进预测的噪声。我们的方法是无需优化的。

效果

InstantStyle-Plus:风格转移与内容保留在文本到图像的生成_人工智能_05

与以往方法比较。除了StyleID它已经为内容保存而设计,我们利用其他作品的官方实现,整合ControlNet以达到空间保存的目的。

InstantStyle-Plus:风格转移与内容保留在文本到图像的生成_风格保持_06

子模块分析,为了简洁起见使用以下缩写:初始内容潜在(ICL),Canny ControlNet (Canny), Tile ControlNet(Tile)、 语义保存(Sem)和风格指导(SG)。

InstantStyle-Plus:风格转移与内容保留在文本到图像的生成_风格保持_07

基于图像的图像风格化结果。给定一个内容图像和样式,对于图像,我们的无需训练的方法可以支持内容保留样式化。对于以人为中心的风格化,为了公平比较,我们不使用任何身份保留模型。

局限性和未来工作

作为一个预实验项目,我们的重点不是深入研究内容和风格之间的相互作用,而是仅评估现有技术在应用中的实际效用。仍有几个挑战有待解决。首先,反演过程被证明非常耗时,这对于较大规模的应用来说可能是一个重要的考虑因素。其次,我们认为 Tile ControlNet 的潜力尚未充分发挥,这表明其功能还有充足的进一步探索空间。第三,虽然风格指导的应用很有效,但由于梯度会在像素空间中积累,因此需要大量的 VRAM。这表明需要一种更复杂的方法来有效地利用风格信号。根据本报告中的一些观察结果,我们正在开发一个更优雅的框架,以在训练阶段注入风格而不损害内容完整性。