生成式AI与扩散模型
文章平均质量分 94
无论你是对人工智能的艺术性应用感兴趣,还是想要深入了解生成式AI和扩散模型的技术细节,本专栏将为你提供一场关于创意与技术碰撞的思想之旅,共同揭示创意涌现的奇迹。
镰刀韭菜
视野,意志,品格;目标,坚持,实践
展开
-
【文献综述】扩散模型在文本生成中的进展
自然文本生成旨在从输入数据中生成流畅、合理和可理解的语言文本(Yu等人,2022b)。这项任务在文献中更正式地称为“自然语言生成”。目前,它是NLP中最重要、最具挑战性的子任务之一。NLG有两种主要的生成方法:自回归(autoregressive,AR)和非自回归(non-autoregressive, NAR),也称为端到端生成。原创 2024-10-17 09:32:46 · 908 阅读 · 0 评论 -
【扩散模型】ControlNet从原理到实战
本文介绍了 ControlNet,这是一种端到端的神经网络架构,用于学习大型预训练文本到图像扩散模型(在我们的实现中为 Stable Diffusion)的条件控制。 **ControlNet 通过锁定大型预训练模型的参数并复制其编码层,保留了该大型模型的质量和能力。这种架构将大型预训练模型视为学习各种条件控制的强大主干网络。**可训练的副本和原始锁定的模型通过零卷积层连接,权重初始化为零,以便在训练过程中逐渐增长。这种架构确保在训练开始时不会向大型扩散模型的深层特征添加有害噪声,并保护可训练副本中的大型预原创 2023-12-07 23:45:00 · 2341 阅读 · 1 评论 -
【扩散模型】DDIM从原理到实战
DDIM论文提出了一种使过程非马尔可夫的方法(如右图所示),允许跳过去噪过程中的步骤,而不需要在当前状态之前访问所有过去的状态。DDIM最好的部分是,它们可以在训练模型后应用,因此DDPM模型可以很容易地转换为DDIM,而无需重新训练新模型。原创 2023-11-27 23:45:00 · 10022 阅读 · 5 评论 -
【AIGC】手把手使用扩散模型从文本生成图像
在这篇文章中,我们将手把手展示如何使用Hugging Face的diffusers包通过文本生成图像。原创 2023-04-23 17:09:16 · 1380 阅读 · 1 评论 -
【扩散模型】手把手从零构建扩散模型
为了更好的理解扩散模型,我们尝试从零开始搭建它。从一个简单的扩散模型开始,理解其不同部分的工作院里,并对比它们与更复杂的结构之间的不同。首先,我们将回答四个问题:①什么是退化过程(如何向数据添加噪声?),②什么是UNet模型以及③如何从零开始实现一个简单的UNet模型,④如何进行扩散模型的训练以及相关的采样理论;然后,我们将介绍UNet模型的一种改进方法、以及当前流行的DDPM噪声特点、并给出训练目标的差异以及调节时间步和采样方法。原创 2023-10-26 23:45:00 · 1029 阅读 · 0 评论 -
【扩散模型】实战:创建一个类别条件扩散模型
本文介绍一种给扩散模型添加额外条件信息的方法。具体地,将在MNIST数据集上训练一个以类别为条件的扩散模型。并且可以在推理阶段指定想要生成的是哪个数字。原创 2023-11-10 23:45:00 · 1289 阅读 · 2 评论 -
【扩散模型】理解扩散模型的微调(Fine-tuning)和引导(Guidance)
`微调`(Fine-tuning)指的是在预先训练好的模型上进行进一步训练,以适应特定任务或领域的过程。这个过程在机器学习和深度学习领域中常常被使用。**通过微调,可以使用先前在大规模数据集上训练好的模型来学习新数据的特定特征,以完成特定的任务**。微调的关键在于利用已经学到的通用特征,通过在特定任务数据集上进行少量训练,使模型适应新的任务。`引导`(Guidance)通常指的是**在某种领域或任务中,给予模型特定的指导、提示或信息,以帮助模型更好地学习和完成特定任务**。这可能包括提供额外的信息、特定原创 2023-10-31 21:03:38 · 1868 阅读 · 2 评论 -
【扩散模型】HuggingFace Diffusers实战
Diffusers是用于生成图像,音频甚至分子3D结构的最先进的扩散模型的首选库。无论是寻找简单的推理解决方案还是训练自己的扩散模型,Diffusers都是一个支持两者的模块化工具箱。该library 的设计侧重于性能,简单的简单性和对抽象的可定制性。原创 2023-10-28 23:45:00 · 2195 阅读 · 1 评论 -
【扩散模型】万字长文全面理解与应用Stable Diffusion
Stable Diffusion是一个强大的文本条件隐式扩散模型(text-conditioned latent diffusion model),它具有根据文字描述生成精美图片的能力。它不仅是一个完全开源的模型(代码,数据,模型全部开源),而且是它的参数量只有`1B`左右,大部分人可以在普通的显卡上进行推理甚至精调模型。毫不夸张的说,Stable Diffusion的出现和开源对AIGC的火热和发展是有巨大推动作用的,因为它让更多的人能快地上手AI作画。本文将基于Hugging Face的diffuser原创 2023-11-11 20:22:05 · 2134 阅读 · 0 评论