生成模型
文章平均质量分 93
Generative model
我什么都不懂zvz
这个作者很懒,什么都没留下…
展开
-
DiT:Scalable Diffusion Models with Transformers
该论文发表之前,市面上几乎都是用卷积网络作为实际意义上的(de-facto)backbone。于是一个想法就来了:为啥不用transformer作为backbone呢?文章说本论文的意义就在于揭示模型选择对于扩散模型的重要性,并为生成模型研究提供一个可借鉴的基准(baseline)。本文还揭示出卷积网络的inductive bias对生成性能并没有多大的影响,所以可以使用transformer网络去替代卷积网络。文章使用Gflops和FID去分别评估模型复杂度和生成图像质量。原创 2024-03-08 16:17:51 · 1061 阅读 · 0 评论 -
LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS
1) 提出背景大模型时代,通常参数都是上亿级别的,若对于每个具体任务都要去对大模型进行全局微调,那么算力和资源的浪费是巨大的。根据流形学习思想,对于数据有用的特征通常集中于低维流形区域。我们想去微调,实际上只是让部分特征的权值更大而已,而这部分特征也是低维的,我们没有必要小题大做将整个模型的参数都动一遍。鉴于此思想,提出了LoRA(Low - Rank Adaptation), 既冻结住预训练好的大模型,插入可训练低维压缩矩阵到每一层(本文是插入到transformer层)。原创 2024-03-08 13:44:09 · 976 阅读 · 0 评论 -
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
1) 提出动机以往的任务都很难做到给定几张图像,模型能模仿图像的主体去实现真正的风格迁移(或者说style change只是很简单地更换背景罢了),就算是text-to-image,即使给出了最细节的text,也不能做到真正的风格迁移。作者认为主要原因是指定的主体并没有出现在模型的output domain里,整个分布都没有的东西怎么可能生成呢。2)方法简略一览使用一个A [V] dog的text,结合几张同一个主体的image,传入网络中进行微调。原创 2024-03-08 11:14:25 · 943 阅读 · 0 评论 -
【扩散模型】生成模型中的Residual Self-Attention UNet 以及 DDPM的pytorch代码
参考:[1][2]原创 2024-03-04 16:35:23 · 1441 阅读 · 0 评论 -
NCSN:Generative Modeling by Estimating Gradients of the Data Distribution
所谓的分数就是对数概率密度的梯度,既sx∂logpx∂xsx∂x∂logpx))。我们很难估计真实数据分布pxp(x)px,但如果我们知道分数, 就可以利用分数从pxp(x)px做到随机采样,并且采样方法有很多。原创 2024-03-03 19:18:55 · 1358 阅读 · 0 评论 -
Variant AutoEncoder(VAE)和 VQVAE 学习笔记和代码
参考:[1][2][3]原创 2024-03-01 17:30:48 · 1646 阅读 · 0 评论 -
AutoEncoder和 Denoising AutoEncoder学习笔记
只是直觉上的认识,并没有数学推导。后面会写一篇(抄)大一统文章(概率角度理解为什么AE要选择MSE Loss)原创 2024-03-01 15:22:16 · 1049 阅读 · 0 评论 -
【扩散模型第三篇】Classifier Guidance 和 Classifier Free Guidance(CFG)及其代码
我们在DDPM或DDIM生成图像时是通常是不可控的,因为它是由一张随即高斯噪声一步步去噪得到生成图像。如果我们想要这个过程是可控的话,最直观的一个做法就是在生成过程中加上一个条件yyypx1T∣x0ypx1T∣x0y接下来就是讨论加上了条件yyy对于公式有无影响。原创 2024-02-29 15:59:42 · 2224 阅读 · 0 评论 -
【扩散模型第2篇】 去噪扩散隐式模型DDIM
参考:[1][2]原创 2024-02-29 00:03:29 · 1063 阅读 · 0 评论 -
【扩散模型第1篇】扩散概率模型DPM和去噪扩散概率模型DDPM
参考阅读:[1]原创 2024-02-27 15:05:03 · 1319 阅读 · 0 评论 -
隐变量模型、Auto-Encoder、VAE、VQVAE的学习
(1) 生成模型是什么都东西?生成模型的一般定义:给定从真实分布p(x)p(x)p(x)采样得到的数据x∼p(x)x\sim p(x)x∼p(x),训练得到一个由θ\thetaθ控制逼近真实分布的pθ(x)p_\theta(x)pθ(x),则称pθ(x)p_\theta(x)pθ(x)为生成模型。(2) 隐变量模型是什么?为什么要用隐变量模型呢?但实际上我们并不好逼近p(x)p(x)p(x):1)首先是它的分布过于复杂,而神经网络往往只能拟合一些简单分布;2)其次我们也并不清楚p(x)p(x)p(x)到原创 2024-02-25 00:59:29 · 1081 阅读 · 1 评论 -
【持续更新】生成模型常用评估指标记录
FID同样也是通过将生成的图片通过Inception Net-V3来评估图像质量,只不过它的输出不是最后的1000维向量,而是2048维特征,通过特征来评估生成图像质量的好坏(如果质量好的话,生成图像的特征的概率分布应该近似于真实样本的特征的概率分布)。如果是其他数据集上训练的生成模型,将生成的图片丢进分类器里,得到的效果并不好。这是人脸生成任务上的消融实验,可以看到对于FID评估指标,不真实的生成图像确实会导致更高的FID(包括最后一行的在生成图像中插入随机的ImageNet中的图像)。原创 2024-02-20 17:05:40 · 1252 阅读 · 0 评论