033_SS_Inversion-Based Creativity Transfer with Diffusion Models

最新推荐文章于 2024-09-11 15:56:33 发布

Artificial Idiots

最新推荐文章于 2024-09-11 15:56:33 发布

阅读量865

点赞数 2

分类专栏：文章阅读笔记文章标签：计算机视觉人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/D_Trump/article/details/129211687

版权

文章阅读笔记专栏收录该内容

37 篇文章 14 订阅

订阅专栏

文章提出了艺术创造力迁移任务，旨在从单一绘画中学习创造力并指导生成新艺术图像。通过TextualInversion使用CLIP编码器学习图像的语义和艺术技巧，生成的文本向量用于预训练的Diffusion模型作为条件输入。StochasticInversion固定随机种子以控制图像细节。实验展示了新颖的视觉效果，但文章在训练和采样过程的详细说明上存在不足。

摘要由CSDN通过智能技术生成

在这里插入图片描述

下载地址：Arxiv 2022.11.23
Code地址：https://github.com/zyxElsa/creativity-transfer

1. Introduction

在这里插入图片描述

Motivations

以前的任意示例引导的艺术图像生成方法（比如风格迁移）通常无法控制形状变化或传达语义元素。而预训练的text-to-image diffusion需要大量的文字描述才能准确描绘特定绘画的属性。
本文的核心思想是从一幅画中学习艺术创造力，然后在不提供复杂的文字描述的情况下指导生成过程。

Arguments

在这里插入图片描述

Style Transfer不能传递对象形状和语义元素等特定的创意属性。如图中的b，e
Text-guided Stylization从自然图像和文本提示中生成艺术图像，但是通常目标风格的文本提示只能是对材料的粗略描述。如图中a，d
Diffusion模型虽然可以生成高质量的结果，但是除了输入图像之外，如果我们想要再现一些生动的内容和风格，还需要详细的辅助文本输入来指导生成过程，这可能仍然难以在结果中再现特定绘画的创意

Contributions

本文提出了一种新任务：艺术创造力迁移的任务（Creativity Transfer）。给定一个单一的绘画图像，目标是通过使用自然图像或文本描述来控制内容，生成对其创作属性具有高保真度的新艺术图像。
本文提出了一种基于注意力的单图像文本反转方法，可以快速准确地学习图像的整体语义和艺术技巧，从而捕捉绘画的完整创意。
通过实验证明本文提出的创造性学习方法可以实现SOTA的性能和新颖的视觉效果

2. Methodology

主要思想是通过Textual Inversion将输入的艺术图像进行处理，得到其对应的包含了creativity的文本v，然后将v进行embedding后作为预训练好的Diffusion的条件输入。

在这里插入图片描述

2.1 Textual Inversion

做法是对于输入的条件图像y，利用CLIP image Encoder $\tau_{\theta}(y)$ 得到其对应的embedding，然后经过Attention后输出的v作为Diffusion要用的文本条件，经过Text encoder编码之后作为Diffusion的条件输入。

训练的目标则是Diffusion的目标

在这里插入图片描述

而在训练的时候， $\tau_{\theta}$ 和 $\epsilon_{\theta}$ 的参数是固定的。

2.2 Stochastic Inversion

本文指出，LDM生成图像的整体性由文本条件控制，而细节则有加入的噪声控制，因此本文固定了随机种子。

这个部分原文写的不太清楚，事实上本文我只给了两个S的一个重要原因就是文章好几个地方写的很不清楚，包括整体的训练和采样过程也没有详细给出。实验部分也是只有效果图，没有指标的比较。

3. Experiments

在这里插入图片描述

Artificial Idiots

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Artificial Idiots CSDN认证博客专家 CSDN认证企业博客

码龄6年

60: 原创

9万+: 周排名

208万+: 总排名

5万+: 访问

: 等级

773: 积分

89: 粉丝

90: 获赞

14: 评论

210: 收藏

私信

关注

热门文章

分类专栏

最新评论

李沐《动手学深度学习》学习笔记（1）Google Colab下的环境配置
weixin_45522297: 为什么我按照上面的三个步骤安装，就是用不了mxnet呢？每次提醒OSError: libcudnn.so.7: cannot open shared object file: No such file or directory
李沐《动手学深度学习》学习笔记（1）Google Colab下的环境配置
weixin_41532377: 但是我这样操作后，每次还是需要重新安装。
003_SSS_ Tackling the Generative Learning Trilemma with Denoising Diffusion GANs
niko^__^: 您好！最近我也在研究DDGANs的论文，我有一个疑惑期望跟您探讨一下 1,DDPM假设去噪分布为高斯分布，而随机微分方程理论证明这样的假设只在降噪步长趋于 0 的时候成立，因此扩散模型需要大量重复的降噪步数来保证小的降噪步长，所以生成速度慢。 2,DDGANs则是抛弃去噪分布为高斯的假设，使用一个条件GAN来模拟这个降噪分布。 3,那么DDPM的加速模型（实际上只是修改了采样算法）比如DDIM也是有一个数据分布，去噪时是一个非马尔可夫链，那么用DDGANs里的条件GAN是否能拟合DDIM的去噪分布呢，这样是否会进一步提升生成速度呢我一直想不明白，希望跟您探讨一下
李沐《动手学深度学习》学习笔记（6）第一章预备知识第四节微分
WS_Change: 请问博主，这个f'h={h:.5f}是什么意思
005_SS_ Palette Image-to-Image Diffusion Models
道尔先生: 最后这个金色字体看瞎我眼

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。