多模态模型
文章平均质量分 95
羊城迷鹿
你相信魔法吗?
展开
-
Stable Diffusion系列(六):原理剖析——从文字到图片的神奇魔法(潜空间篇)
论文提出了一个名为Latent Diffusion Models (LDM)的新模型,旨在减少直接在像素空间中训练扩散模型所带来的计算复杂度。提出了两阶段训练方法:首先训练一个自动编码器,学习一个低维的潜在空间表示,然后在自动编码器的潜在空间中训练扩散模型。这显著降低了训练和推理的计算复杂度。引入交叉注意力机制:通过将交叉注意力层添加到UNet中,LDM可以处理各种条件输入,如文本或语义布局,并实现高质量的图像生成。原创 2024-02-18 17:06:12 · 1644 阅读 · 0 评论 -
Stable Diffusion系列(五):原理剖析——从文字到图片的神奇魔法(扩散篇)
这是解开图片生成之谜的第一把钥匙,原文是发表于NIPS2020的Denoising Diffusion Probabilistic Models,下面我们就如庖丁解牛般,尝试洞察里面的每一丝细节。先从标题说起,很久没有看到过这么简明扼要的论文名了,用三个词就完美概括了DDPM的核心思想,去噪(Denoising)是方法、扩散(Diffusion)是架构、概率(Probabilistic)是媒介。至于目的,当然是去生成以假乱真的图片。图片生成不是什么新鲜事,VAE和GAN都是曾经的研究宠儿,它们在生成图片时都原创 2024-02-15 14:47:57 · 1742 阅读 · 1 评论 -
Stable Diffusion系列(四):提示词规则与使用
所谓提示词,也就是文生图中的文,由连贯的英语单词或句子组成。还是上面的例子,总共30步,前20灰发,后10蓝发。以DreamShaper8 SD1.5为例。前百分之30灰发,后百分之70蓝发。在此基础上,让眼睛变成黄蓝混合。前一半是蓝发,后一半去除蓝色。不是很好用,只有蓝色。原创 2024-01-28 19:13:25 · 1859 阅读 · 0 评论 -
Stable Diffusion系列(三):网络分类与选择
我一般把对模型的描述放在notes里面,因为如果放在描述里会显示在选择界面里,看着非常乱,点击Replace preview可以将模型封面图替换为当前生成的图片。炫耀一下我的老婆们:sd-webui-prompt-all-in-one插件:用于选择模型、超网络、Lora和嵌入。原创 2023-12-23 17:00:29 · 2167 阅读 · 3 评论 -
Stable Diffusion系列(二):ControlNet基础控件介绍
在下载插件时可以看到,ControlNet 插件的星数遥遥领先,远超其他妖艳贱货。究其原因,是因为其大大增强了使用者对图片生成过程的控制能力,图片的生成同时受到提示词和提示图的影响,使得文生图由抽卡游戏变成了一个更具确定性的创作工具。ControlNet位置位于文生图界面下方,记得要勾选启用,可控类型包括这么点东西:接下来我将以喜闻乐见的熊猫花花为例,演示一下关于ControlNet的高端操作。原创 2023-11-01 09:32:07 · 915 阅读 · 0 评论 -
Stable Diffusion系列(一):古早显卡上最新版 WebUI 安装及简单操作
该插件的原理是在调用和完成时分别向原始模型中注入(inject)和删除(restore)时间步模块从而生成连续变化的GIF,由于整体版本过老,直接执行该插件会报没有insert和pop方法的错误,因此需要在。首先在模型左侧选择Stable Diffusion模型及其对应VAE,然后输入正向和反向提示词,在下面点击生成相关设置如采样方法、采样迭代次数和宽高等。lora是一类对模型进行微调的方法,是一系列参数量较小的模型,在与原始模型结合后,可以对生成图片做特定修饰,可以理解为化妆技术。原创 2023-10-29 17:46:02 · 1789 阅读 · 0 评论