论文粗读系列-3:DEADiff

论文介绍了一种新的深度学习模型DEADiff,它通过解耦参考图像的风格和语义,提高文本到图像模型的文本可控性。DEADiff利用Q-Formers和非重构学习策略,在保持视觉风格的同时增强文本指导。
摘要由CSDN通过智能技术生成

论文粗读系列-3

DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations

1.简介

CVPR 2024

链接:[2403.06951] DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations (arxiv.org)

代码:GitHub - Tianhao-Qi/DEADiff_code

基于扩散的文本到图像模型在传递参考风格方面具有巨大的潜力。然而,当前基于编码器的方法在传输样式时严重损害了文本到图像模型的文本可控性。

在本文中,作者引入了DEADiff,通过以下两种策略来解决这个问题:

1)一种机制来解耦参考图像的风格和语义。解耦的特征表示首先由不同文本描述指示的Q-Formers提取。然后将它们注入到相互排斥的跨注意层子集中,以更好地解开纠缠。
2)非重构学习方法。Q-Formers使用成对图像而不是相同的目标进行训练,其中参考图像和真实图像具有相同的风格或语义。作者表明,DEADiff在文本到图像模型中固有的文本可控性和与参考文献年龄的风格相似性之间获得了最佳的视觉风格化结果和最佳平衡,这在定量和定性上都得到了证明。

对于过去的编码器方法:

文本可控性的丧失主要源于两个方面。

一方面,编码器提取将样式与语义结合起来的信息,而不是纯粹的样式特征。具体来说,以前的方法在编码器中缺乏有效的机制来区分图像样式和图像语义。因此,提取的图像特征不可避免地包含文体和语义信息。这种图像语义与文本条件中的语义冲突,导致对基于文本的条件的控制减弱。

另一方面,以前的方法将编码器的学习过程视为重建任务,其中参考图像的真值是图像本身。与训练文本到图像模型来遵循文本描述相比,从参考图像的重建中学习通常更容易。因此,在重建任务下,该模型倾向于关注参考图像,而忽略了文本到图像模型中的原始文本条件。

解耦的思路并不复杂,学到了,还有这种操作。

2.方法

作者使用专有的配对数据集来训练Q-Former,以提取“风格”和“内容”条件下的解纠缠表示,并将其注入互斥的交叉注意层

在这里插入图片描述

  • Dual Decoupling Representation Extraction

一方面,作者采样了一对不同的图像,它们都保持相同的风格,但分别作为SD生成过程的参考和目标,如图中的A所示。将参考图像输入CLIP图像编码器,其输出通过交叉注意与QFormer的可学习查询令牌及其输入文本进行交互。在这个过程中,作者将单词“style”作为输入文本,期望生成与文本对齐的图像特征作为输出。该输出封装了样式信息,然后与详细描述目标图像内容的标题相结合,并为去噪U-Net提供条件。这种提示组合策略的动机是为了更好地将样式从内容标题中分离出来,从而使Q-Former能够更多地专注于以样式为中心的表示的提取。这个学习任务被定义为风格表示提取,缩写为STRE

另一方面,作者合并了一个相应的对称内容表示提取任务,称为SERE。如图中的B对所示,作者选择两幅题材相同但风格不同的图像,分别作为参考图像和目标图像。重要的是,作者将Q-Former的输入文本替换为单词“content”,以提取相关的特定于内容的表示。为了获得纯粹的内容表示,作者同时提供Q-Former的查询令牌输出和目标图像的文本样式词,作为去噪U-Net的条件。在这种方法中,Q-Former将在生成目标图像时筛除嵌套在CLIP图像嵌入中的与内容无关的信息。

同时,作者将重建任务合并到整个管道中。条件提示由“风格”Q-Former和“内容”Q-Former为这个学习任务处理的查询token组成。这样就可以保证Q-Formers不会忽视本质的图像信息,同时考虑到内容和风格之间的互补关系

  • Disentangled Conditioning Mechanism

观察到去噪U-Net中不同的交叉注意层支配着合成图像的不同属性,作者引入了一种创新的解纠缠调节机制 (Disentangled Conditioning Mechanism, DCM)

本质上,DCM采用的策略是对空间分辨率较低的粗层进行语义约束,对空间分辨率较高的细层进行风格约束。如图所示,只将带有“style”条件的Q-Former的输出查询注入到精细层,这些层响应局部特征而不是全局语义。这种结构调整促使Q-Former在输入“风格”条件时提取更多面向风格的特征,如笔触、纹理和图像的颜色,同时减少对全局语义的关注。因此,这种策略可以更有效地解耦风格和语义特征。同时,为了使去噪的U-Net支持图像特征作为条件,作者设计了一个联合文本-图像交叉注意层,如图所示。

作者不是单独对图像和文本特征执行交叉注意,而是分别将文本和图像特征的键矩阵和值矩阵连接起来,然后使用U-Net查询特征z启动单个交叉注意操作。

3.狗头保命

以上观点均为本人对于原文的粗鄙理解,仅作为个人学习笔记,如有错误烦请指正,如有侵权请联系我删除。

不摆了,加训!

  • 15
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值