[SGDiff] A Style Guided Diffusion model for fashion synthesis

Abstract

①提出一个 风格引导的扩散模型(SGDiff),把 图像模态 与 预训练的t2i模型 组合起来。

②提出一个 数据集 SG-Fashion。

Method

SGDiff Overview

 

公式含义:在给定时间点 t 上的输入x_t,目标文本的语义表示f_T,风格表示f_S。通过扩散网络 \epsilon_{\theta} 估计该时刻的噪声 \hat{\epsilon}_t

输入:①文本text;②风格图像。

文本条件 c_T 通过扩散模型的 E_T^{diff} 生成 f_T

风格条件 c_S 通过CLIP模型的 E_S^{clip} 生成 f_S

这两个特征在 SCA 模块中进行特征融合(融合细节如下图:)

f_T :Q,K_T,V_T=L_T(f_T)

f_SK_S,V_S=L_S(f_S)

再特征拼接:

输出 f_m

最后再来一个 skip-connection:

Training Objective

从每一时间步骤t,获得重建图像 \hat{x}_0

Perceptual Loss:

Perceptual Losses for Real-Time Style Transfer and Super-Resolution. 2016

\psi_m(\hat{x}_0) ,\psi_m({x}_0) 分别表示 生成图像 \hat{x}_0 和真实图像 x_0 在VGG网络的第 m 层的特征表示。

VGG网络,包含多个卷积层和池化层,用于提取图像特征。

最后基于 Improved DDPM,提出最终目标Loss:

L^{simple}_t 

L^{vlb}_t

Multi-Modal Conditions

Experiment

数据集:SG-Fashion,包含17,000 张从优衣库等网站上下载的各类图片。

模型架构:GLIDE+CLIP(ViT/32)

显卡:a single RTX3090

定性比较

定量比较

收获

  • 了解到【模态融合】相关知识;

  • 9
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值