diffusion model
文章平均质量分 93
莫叶何竹
个人主页:http://myhz0606.com/
展开
-
diffusion model(十八):diffusion model中negative prompt的工作机制
前置阅读:DDPM: http://myhz0606.com/article/ddpmclassifier-guided:http://myhz0606.com/article/guidedclassifier-free guided:http://myhz0606.com/article/classifier_freeScore based generative model:http://myhz0606.com/article/ncsn在用生成图片时,除了输入图片表述文本外(positive promp原创 2024-06-24 17:52:48 · 1041 阅读 · 0 评论 -
Score Matching推导,Denoising Score Matching推导
A Score Matching推导不妨假定x\mathrm{x}x是ddd维的随机向量,即x∈Rd\mathrm{x}\in \mathbb{R}^dx∈Rdx=[x1,x2,⋯ ,xd]T,sθ(x)=[s1(x;θ),s2(x;θ),⋯ ,sd(x;θ)]T(A.1) \boldsymbol {\mathrm{x}} = [x_1, x_2, \cdots, x_d]^T, \quad s_{\theta}(\boldsymbol {\mathrm{x}}) = [s_1(\mathrm{x;原创 2024-05-30 19:39:19 · 893 阅读 · 0 评论 -
diffusion model(十七)Score视角下的生成模型(Score-Based Generative Models)
infopaperGenerative Modeling by Estimating Gradients of the Data Distributionsongyang 大佬博客https://yang-song.net/blog/2021/score/song yang 大佬视频讲解https://www.youtube.com/watch?v=wMmqCMwuM2QGithubhttps://github.com/ermongroup/ncsn个人博原创 2024-05-30 19:38:15 · 975 阅读 · 0 评论 -
diffusion model(十六):Layer Diffusion 技术小结
为了做含有透明通道的生成任务,需要通过diffusion的方法建立简单的高斯分布与含有透明通道信息的latent的联系。例如,如果我们希望固定前景并生成相应的背景图像,亦或给定背景的情况下生成不同的前景元素,上述的方法都不能实现。上述两种架构的生成效果都不好。神经网络能够在不改变整体特征分布的情况下,将图像隐藏在现有特征内部的扰动中,例如,通过小的、不可见的像素扰动将图像隐藏在另一个图像中。作者分别展示了根据前景生成背景,根据背景生成前景情形,生成效果都非常不错,前背景的语义连贯性很好,有较大的实用价值。原创 2024-05-30 19:28:13 · 703 阅读 · 0 评论 -
InstantStyle技术小结
作者通过对不同的DM中不同的attention layer进行分析,发现up blocks.0.attentions.1和down blocks.2.attentions.1对style和layout的捕捉能力最强。为了减轻IP-adapter中的image condition对prompt following的影响,仅在这两层将cross attention换成decouple cross-attention。简单来说,就是将CLIP得到的image feature减去object feature。原创 2024-05-30 19:23:47 · 1013 阅读 · 0 评论 -
diffusion model(十五) : IP-Adapter技术小结
为了对文生图diffusion model进行特定概念的定制,常用LoRA[1]、textual inversion[2]等inference before fine-tune的方法。此类方法有一个弊端:每一个新的概念都需要重新训练一个权重,比较麻烦。那么,能不能有一个方法inference前无须微调,只需给一张reference image,就能将该图片的概念融入到生成过程中?这就是IP-adapter想要解决的问题。原创 2024-04-05 18:13:34 · 1729 阅读 · 1 评论 -
diffusion model(十四): prompt-to-prompt 深度剖析
基于扩散模型(原创 2024-03-19 20:29:37 · 2054 阅读 · 0 评论 -
diffusion model(十三):DiT技术小结
DDPMLDM(隐空间扩散模型基本原理,stable diffusion 底层架构)classifier-free guided(文生图基本原理)原创 2024-03-10 11:30:37 · 1576 阅读 · 0 评论 -
diffusion model(十二): StableCascade技术小结
前置知识:latent diffusion model(stable diffusion)知乎 个人博客 paperclassifier-free guided: 知乎 个人博客 paperDiffusion model()的提出将图像生成任务推到了前所未有的高度。随着应用人数的增多,人们对文生图模型有了更高的期望:生成质量更高、生成分辨率更大、推理速度更快、生成的图片与文本的alignment更强等。更大的分辨率意味着更大的算力需求。现在的常用做法是先用先生成一个分辨率相对较低的图片,原创 2024-03-10 11:27:02 · 936 阅读 · 0 评论 -
diffusion model(十一) InstantID技术小结
本文提出了一种plug-and-play 定制人脸生成模型(Plugability),给定一张人脸照片,就能生成指定风格和pos的照片。InstantID不仅前期训练成本低(compatibility),还能实现inference without fine-tune (Tuning-free)和高保真图像的生成。(Superior performance)。取得了fidelity、efficiency、flexible三者很好的平衡。原创 2024-01-30 09:14:22 · 1169 阅读 · 0 评论 -
diffusion model (十) anydoor技术小结
这篇文章的核心目的是用一种zero-shot的方法做定制目标的定制场景图片生成。简单来说就是:给定目标图片和场景图片就能生成在该目标在该场景不同姿态(角度、光照)的图片。从上面的描述中我们知道anydoor的训练目标是给定目标图片和场景生成该目标在该场景下不同姿态的图片。因此容易知道训练集是三元组组成的集合,即(输入目标图片,场景图片+位置,输出图片)。该公式的核心就是,提取图片中object的高频信息,随后将其与scene图片拼接。中,用diffusion model的生成方式进行图片生成。原创 2023-12-29 08:16:26 · 1069 阅读 · 0 评论 -
diffusion model (九) EmuEdit技术小结
作者将image-edit分为了三大类,分别是Region-based Editing、Free-From Editing、Vision tasks,每个大类中有若干小类。下图展示了每一个image-edit任务所做的事。原创 2023-11-27 21:49:13 · 1050 阅读 · 0 评论 -
diffusion model (八) Dalle3 技术小结
创建时间: 2023-10-25。原创 2023-10-30 21:50:10 · 1035 阅读 · 0 评论 -
diffusion model classifier-guided与classifier-free的区别
需要重新训练diffusion model,训练成本较大。stable diffusion 在Laion5B用了256张A100训练15w 机时,一般公司无法承担如此大的训练成本。只需训练diffusion model ,但该diffusion model有一个语义输入。生成过程每一个时间步的生成需要将语义embedding也输入到diffusion model中,详细可参考。不用重新训练diffusion model就能引导朝向期望类别的图片生成。只能生成特定类别的图片,无法实现语义级别的生成。原创 2023-08-17 09:08:05 · 914 阅读 · 0 评论 -
diffusion model (七) diffusion model是一个zero-shot 分类器
Paper: Your Diffusion Model is Secretly a Zero-Shot ClassifierWebsite: diffusion-classifier.github.io/最近,出现了一系列大规模的文生图模型,它们极大地增强了我们通过文字生成图片的能力。这些模型可以根据各种提示生成逼真的图片,展现出惊人的综合创作能力。到目前为止,几乎所有的应用都只关注了模型的生成功能,但实际上,这些模型还能提供条件密度估计,这对于处理图像生成之外的任务也很有用。本篇文章指出类似这样的大规模文原创 2023-08-17 09:01:34 · 498 阅读 · 0 评论 -
diffusion model(六)Dalle2技术小结
这是因为虽然CLIP在训练过程中通过对比损失使得图片特征与文本特征进行对齐,但是模态间还是有存在Gap[^6],Prior模块的很大的意义是给定文本embedding,准确预测出其对应CLIP的image embedding,更有益于重建的效果。Step1:将图片文本对输入到CLIP[^4]模型中获得对应的文本向量编码(text embedding)文本中每个token的编码(text encoding)及图像向量编码(image embedding)。该模型的作用是预测分布。时刻的图片向量编码。原创 2023-08-07 08:00:49 · 1109 阅读 · 0 评论 -
diffusion model(五)stable diffusion底层原理(latent diffusion model, LDM)
论文地址]原创 2023-07-28 08:02:35 · 3519 阅读 · 0 评论 -
diffusion model(四)文生图diffusion model(classifier-free guided)
在classifier-guided这篇博客我们提到对于一般的DM(如DDPM, DDIM)的采样过程是直接从一个噪声分布,通过不断采样来生成图片。但这个方法生成的图片类别是随机的,classifier-guided通过额外训练一个分类器来不断矫正每一个时间步的生成图片,最终实现特定类别图片的生成。Classifier-free的核心思路是:我们无需训练额外的分类器,直接训练带类别信息的噪声预测模型来实现特定类别图片的生成.原创 2023-07-11 08:07:35 · 5107 阅读 · 0 评论 -
diffusion model(三)—— classifier guided diffusion model
classifier guided diffusion model背景对于一般的DM(如DDPM, DDIM)的采样过程是直接从一个噪声分布,通过不断采样来生成图片。但这个方法生成的图片类别是随机的,如何生成特定类别的图片呢?这就是classifier guide需要解决的问题。方法大意为了实现带类别标签yyy的DM的推导,进行了以下定义q^(x0):=q(x0)q^(y∣x0):=Know labels per sampleq^(xt+1∣xt,y):=q(xt+1原创 2023-06-26 20:49:25 · 1839 阅读 · 0 评论 -
diffusion model(二)—— DDIM技术小结
论文地址:Denoising Diffusion Implicit Modelsgithub地址:https://github.com/ermongroup/ddim背景去噪扩散概率模型 (DDPM1) 在没有对抗训练的情况下实现了高质量的图像生成,但其采样过程依赖马尔可夫假设,需要较多的时间步才能得到较好的生成效果。本文提出的DDIM(denoising diffusion implicit models 2)是更有效的迭代隐式概率模型,其训练过程与 DDPM 相同,但相比DDPM,采样过程快 10原创 2023-06-26 20:41:57 · 2364 阅读 · 0 评论 -
diffusion model(一)DDPM技术小结 (denoising diffusion probabilistic)
DDPM技术小结 (denoising diffusion probabilistic)1 从直觉上理解DDPM在详细推到公式之前,我们先从直觉上理解一下什么是扩散对于常规的生成模型,如GAN,VAE,它直接从噪声数据生成图像,我们不妨记噪声数据为zzz,其生成的图片为xxx对于常规的生成模型:学习一个解码函数(即我们需要学习的模型)ppp,实现 p(z)=xp(z)=xp(z)=xz⟶px(1)z \stackrel{p} \longrightarrow x \tag{1}z⟶px(1)原创 2023-06-26 20:31:38 · 1309 阅读 · 2 评论