Stable Diffusion AI入门介绍

Stable Diffusion模型

在上一篇的文章中我们介绍了,AIGC的相关知识以及AI绘画的历史——AIGC是什么,与AI绘画有什么关系,一篇文章带你了解AI绘画的前世今生

我们知道了Stable Diffusion是一种潜在扩散模型,由慕尼黑大学的CompVis研究团体开发的各种生成性人工神经网络之一。它是由初创公司StabilityAI、CompVis与Runway合作开发,并得到EleutherAI和LAION的支持,同时进行了开源,其核心代码和基础功能是完全免费的,任何用户都可以下载和使用Stable Diffusion的基础版本,无需支付任何费用。

另外,Stable Diffusio也提供了AI绘画社区、基于SD的自训练AI绘画模型以及丰富的辅助AI绘画工具与插件等,不仅吸引了AI爱好者,也吸引了专业人士,共同推动了AI生成内容(AIGC)领域的发展和普及。

总之,Stable Diffusion不仅在技术上取得了显著的进步,而且在艺术创作、设计和其他多个领域展现了广泛的应用潜力。它的出现标志着AI图像生成技术的一次重大飞跃,它的发布被认为提高了AI图像生成的标准。

Stable Diffusion的源代码和模型权重已分别公开发布在GitHub和Hugging Face,可以在大多数配备有适度GPU的电脑硬件上运行。而以前的专有文生图模型(如DALL-E和Midjourney)只能通过云计算服务访问。

Stable Diffusion源码地址:stable-diffusion
Stable Diffusion模型地址:https://huggingface.co/CompVis

其他微调版本:

Stable Diffusion Version 1.5

在线体验地址:https://huggingface.co/spaces/runwayml/stable-diffusion-v1-5

v1.5模型地址:https://huggingface.co/runwayml/stable-diffusion-v1-5

Stable Diffusion Version 2

在线体验地址:https://huggingface.co/spaces/stabilityai/stable-diffusion

v2.x模型地址:https://huggingface.co/stabilityai/stable-diffusion-2-1

Stable Diffusion工具

Stable Diffusion使用需要通过代码来调用模型进行绘图,但这种方式并不便于使用,以此开发者们开发出了基于Web操作界面进行绘图的工具。比较典型和使用较多的有两个:

stable-diffusion-webui

1-1

ComfyUI

1-2

这两个工具都可以通过Web界面来操作绘图。SD WebUI 相对来说更简单易用,功能一目了然,入门门槛比较低,容易上手;而ComfyUI 对于 WebUI 来说,拥有更好的性能和速度,可以使用更低的内存来运行。而且节点式的界面和工作流玩法,配置灵活,玩法也更多。但是入门门槛相对较高。

初学者建议开始使用stable-diffusion-webui, 待学习高级教程后再来了解ComfyUI

Stable Diffusion配置&安装

配置

拥有Nvidia独立显卡,需要足够大的显存,最低配置4GB显存,基本配置6GB显存,推荐配置12GB显存(训练推荐大于12G),最好16GB及以上,总之内存越大越好。

硬盘推荐使用固态硬盘。

A卡不推荐,性能损耗比较大,Mac电脑也是可以的,但推荐M1/M2芯片。但是既然都搞AI绘图了,推荐还是配置个台式机+N卡,不然效果嘛就不好说了。

安装

本文都以stable-diffusion-webui来介绍,关于ComfyUI会单独出系列文章介绍。

两种方式:

1、使用秋叶整合包,直接打包启动

可参考:

https://www.bilibili.com/video/BV1iM4y1y7oA/?spm_id_from=333.976.0.0&vd_source=d570529fd54eb3eefc0c3a84ffb592e9

2、自己构建启动应用

本文主要以开发2为主,自己构建,如果已经安装好了,可以忽略以下步骤。

WebUI下载

项目仓库地址:https://github.com/AUTOMATIC1111/stable-diffusion-webui,可以通过git,也可以直接下载作者的release包获取。

Python环境

注意:官方推荐安装 Python 3.10.6 版本,最好使用该版本,不然后面可能会有兼容性问题,笔者就遇到过这个问题,又重新安装回该版本。

3.10.6下载地址

python --version
CUDA 环境

默认 stable-diffusion-webui 运行使用的是 GPU 算力,也就是说需要用到 Nvidia 显卡(配置越高,绘图越快)

这里我们需要安装 CUDA 驱动,先确定一下电脑能安装的 CUDA 版本,桌面右下角->右键 NVIDIA 设置图标->NVIDIA 控制面板

在帮助栏选择系统信息查看软件。

1-3

注意:高版本显卡是可以安装低版本的 CUDA 驱动的,比如我也可以安装经典的 10.2 版本,但是安装 12.5 版本可以获得更高的 GPU 运行效率,所以一般来说推荐安装显卡支持的最高 CUDA 版本。

在下面的网址中找到对应的 CUDA 版本进行安装:

CUDA Toolkit Archive

直接选择 “精简” 安装就可以了,安装完成之后,可以使用如下命令查看 CUDA 版本,来验证 CUDA 是否安装成功:

nvcc --version

注:如果你没有 Nvidia 显卡,也可以通过给 stable-diffusion-webui 指定运行参数 --use-cpu sd,让其使用 CPU 算力运行,但是非常不建议你这么做,CPU 算力跟 GPU 算力相比简直天差地别,可能 GPU 只需要 10 秒就能绘制完成,而 CPU 却要 10 分钟,这不是开玩笑的。另外,如果你的显卡内存不多,建议 4G 的显卡加上 --medvram 启动参数,2G 的显卡加上 --lowvram 启动参数。

Windows用户编辑webui-user.bat文件,修改第六行:

set COMMANDLINE_ARGS=--lowvram --precision full --no-half --skip-torch-cuda-test

如果是16系列显卡,出的图是黑色的话,也是修改webui-user.bat文件的第六行:

set COMMANDLINE_ARGS=--lowvram --precision full --no-half
下载模型
C站

https://civitai.com/

比如:majicMIX realistic 麦橘写实

1-4

B站

https://www.liblib.art/

1-5

BeenYou R13

Hugging Face

https://huggingface.co/

因为C站国内无法访问,建议使用B站和Hugging Face。

将下载好的模型放入到stable-diffusion-webui\models\Stable-diffusion下面即可。

启动项目

在安装配置好运行环境之后,直接运行工程下的 webui-user.bat 文件即可(如果是类 Unix 系统,则运行 webui-user.sh)。

使用命令

.\webui-user.bat

当看到终端执行成功,然后打开浏览器输入如下地址即可。

http://127.0.0.1:7860/

主界面

stable-diffusion-webui 的功能很多,主界面如下:

1-6

【区域1】:模型选择区

SD生成的图片和模型的关系非常大,不同的模型对应不同的图片风格,比如常见的二次元风格,真人风格,国风风格等。
我们在前面下载的就是这里需要使用的模型文件(stable-diffusion-webui\models\Stable-diffusion目录下的文件),模型又分基础模型和其他微调模型比如lora等,涉及的内容很多,后面再详细介绍。

【区域2】:主要的功能区

文生图(txt2img):根据提示词(Prompt)的描述生成相应的图片。

图生图(img2img):将一张图片根据提示词(Prompt)描述的特点生成另一张新的图片。

附加功能(Extras):额外的功能,比如图片的等比缩放,改变采样。

图片信息(PNG Info):展示图片的信息。如果图片是由AI生成的,会展示提示词以及模型相关参数信息。

模型合并(Checkpoint Merger):合并多个模型,由多个模型的权重比例来决定最终生成图片。

训练(Train):模型训练。

C站插件(Civitai Helper):C站模型插件,可以下载模型信息和介绍。

自定义插件(Ebsynth Utility、EasyPhoto、Image Browser)都是自定以安装的插件,可以理解为扩展功能,后面文章我再详细讲解。

Tag反推(Tagger):使用图片反向生成关键词、反推词。

设置(Setting) : SD Web UI界面和参数设置。

扩展(Extensions):插件扩展,提供SD插件安装载入入口。

【区域3】:提示词区

SD Web UI提供了2个提示词输入框,一个是正向提示词,一个是反向提示词。

正向提示词:你希望生成的图片中包含的信息使用的关键词。

反向提示词:你希望生成的图片中不包含的信息使用的关键词。

【区域4】:参数设置区

采样方法(Sample method):提供了Euler a、DPM++2Sa Karras等采样方法。

调度类型 (Schedule type):提供了Automatic、uniform、karras等调度类型,一般选Automatic就好了。

采样迭代步数(Sampling steps):数值越大图像越精细,一般设置在20-40区间。

高清修复(Hires fix):可以将低分辨率的照片调整到高分辨率。

细化器(Refiner): 可以在生成图的不同点切换模型产生效果。

宽度(Width):图片的宽度。

高度(Height):图片的高度。

提示词相关性(CFG Scale):决定图片自由度,数值越大,生成的图像会更符合提示词的要求。一般设置在7-10之间。也不建议设置太大。

随机种子(Seed):相当于图片的DNA,决定了画面的内容,一般设置为-1,表示随机生成,seed一样的情况下,可以生成比较相似的图片。

生成批次(batch count):用于控制每次生成多少批次的图片。

每批数量(batch size):用于控制每批生成多少张的图片数量。

自定义插件(ADetailer、Tiled Diffusion、ControlNet等下面的配置)是需要按需安装插件,后面会有文章介绍。

【区域5】: 功能操作区

结合1、2、3、4区域的设置,点击【生成】按钮,生成的图片在区域6展示。

【区域6】:生成图片区

用于展示最终生成的图片。以及图片的下载,打包等功能。

生成图

油画风格:
1-7

1-8

中国风:
1-9


欢迎大家持续关注微信公众号"壁虎说技术",需要更多高清无水印图片的可以去微信公众号,回复【壁纸】获取。


壁虎说技术

参考

Stable Diffusion

  • 20
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值