039_SSS_ArtFusion: Controllable Arbitrary Style Transfer using Dual Conditional LDM

最新推荐文章于 2024-08-15 07:11:30 发布

Artificial Idiots

最新推荐文章于 2024-08-15 07:11:30 发布

阅读量487

点赞数

分类专栏：文章阅读笔记文章标签：计算机视觉人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/D_Trump/article/details/131371000

版权

文章阅读笔记专栏收录该内容

37 篇文章 14 订阅

订阅专栏

ArtFusion: Controllable Arbitrary Style Transfer using Dual Conditional Latent Diffusion Models

在这里插入图片描述

1. Motivations & Arguments & Contributions

在这里插入图片描述

Motivations

本文提出了一种基于Latent Diffusion Model的un-paired风格迁移方法。

Arguments

现有的风格迁移方法的缺点：
（1）缺乏针对用户主观需求定制的可调整结果，导致结果过于僵化，风格化不足或过度风格化
（2）由于风格相似性的偏差，这些模型通常有重复的伪影和艺术细节的严重损失

直接将Diffusion模型用于风格化存在的问题：
最大似然学习需要成对的训练数据，这在许多复杂的多条件生成任务，包括风格迁移中无法满足。

Contributions

本文的主要贡献：
（1）本文提出了第一个基于Diffusion模型的feed-forward风格迁移方法
（2）本文提出的Dual-cLDM，打破了Conditional Diffusion(cDM)模型在多条件任务中需要成对训练数据的局限性
（3）本文提出了2D-CFG（Classifier Free Guidance）来提高生成质量。
（4）实验证明本文方法的有效性

2. Methodology

在这里插入图片描述

将输入数据分为风格条件图像 $I_s$ 和内容条件图像 $I_c$ 。风格图像经过预训练的VGG网络得到其特征 $f_s$ 然后经过MLP进行嵌入，与时间步的嵌入concat之后输入 U-Net 网络。内容图像先编码到隐空间 $z_c$ ，然后经过一个content refiner来保留内容信息，去除风格信息得到 $z_r$ 。之后与每一步的 $z_t$ concat之后作为 U-Net 的另一个输入。

那么本文是如何做到un-paired？ 在训练的时候将风格和内容条件图像都用同一个图像，但是在采样的时候则用不同的图像。由于预训练好的VGG提取到的信息可以当做是风格信息先验，所以本文也可以看做是一种解耦。

2D-CFG 本文用了风格和内容两个维度的CFG

在这里插入图片描述

3. Experiments

在这里插入图片描述

Artificial Idiots

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。