Stable Diffusion UI 从安装到实现文字图片融合（光影字，错觉图）图片制作详细教程

本文链接：https://blog.csdn.net/HJS123456780/article/details/144671551

前言

最近在实践大模型本地部署，前几天在本地部署了一个ChatGLM大模型，刚好环境搭好了，也支持跑Stable Diffusion，所以就安装了再尝试一下。

原因是之前在B站上有大佬做了一个Windows电脑能一键运行的StableDiffusion的安装包，自己也下载下来玩了一下，因为刚接触上手难度比较大，玩了一下放弃了。这两天随着SDXL 发布，看到能毫秒级地文字生成图片，还有cloudflare 有免费的服务提供，太震撼了，所以想动手做一些实际的东西出来分享一下。

对于没有接触过的同学通俗地来说Stable Diffusion 是一个开源的图像生产+调整工具，接下来我会从怎么安装StableDiffusion到做一个文字图片融合的示例。

安装

首先是安装Stable Diffusion （安装包文末领取）
我自己的环境是Linux环境，通过脚本安装的形式来启动网页工具，大多数人应该是Windows
环境，通过下载安装包的形式启动网页工具，这里不会介绍每个专业关键字的具体解释，但是会以新手角度顺便会说一下我遇到的问题

根据项目介绍下载安装脚本，执行安装脚本：

有些依赖软件我已经安装，这里我会根据官方提示下载一些相关依赖：

sudo apt install  libgl1 libglib2.0-0

wget -q https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh
sh webui.sh



  * 1
  * 2
  * 3
  * 4
  * 5

执行安装脚本过后运行，开始的会报一个错，我是用root 权限执行的，会报错：

需要把这个webui.sh 执行权限改为非root 用户并以非root 用户运行，就是这样：

此时可以看起来没有问题了，实际上没有开放到内网机器访问，监听的是127.0.0.1
，需要成0.0.0.0就需要给webui.sh加上参数才行，我还有一些其他的需求就是打开web ui的扩展权限和访问权限验证，就是下面这样：

bash webui.sh --listen --enable-insecure-extension-access --gradio-auth root:123456 



  * 1
  * 2

还可以增加其他参数达到相应其他的功能，可以去查找官方相关资料。
效果：现在就可以通过内网机器访问这个机器部署的Stable Diffusion的服务了：
此时的webui截图是我安装一些插件的之后截图,接下来需要安装一些插件：

首先安装一个中文插件扩展两种安装方式，第一种就是通过内置插件安装
没安装搜这个zh
安装过后就翻译搜不到了，搜中文：点击安装，这里应该也可以可以直接通过网址安装
注意要在设置里面设置重启UI才能生效

还需要装一个模型浏览工具：C站浏览器插件点击安装就可以
第二种是通过网址安装：

这里我通过这个网址安装了：
1.控制网络(ControlNet插件)（[github.com/Mikubill/sd…](https://link.juejin.cn/?target=https%3A%2F%2Fgithub.com%2FMikubill%2Fsd-
webui-controlnet.git%25EF%25BC%2589 “https://github.com/Mikubill/sd-webui-
controlnet.git%EF%BC%89”)
对图片进行精细化控制，以生成更具创意和控制力的图像文字图片融合的核心插件

2.sd_civitai_extension
（github.com/civitai/sd_…
C 站的官方扩展，可以自动下载模型，获取模型信息，检查模型更新，自动下载缩略图的能力

3.C站浏览器插件
（[github.com/BlafKing/sd…](https://link.juejin.cn/?target=https%3A%2F%2Fgithub.com%2FBlafKing%2Fsd-
civitai-browser-plus.git%25EF%25BC%2589 “https://github.com/BlafKing/sd-
civitai-browser-plus.git%EF%BC%89”)
C站就是著名的AIGC模型库网站，跟著名的Hugging Face一样的网站，但是C站有很多不可描述的东西，被墙了

通过网址安装就用 git 项目地址点击安装就行了

注意：所有的插件安装完成都需要在设置里面点击 ”保存设置“ 和 “重启WebUI”

下载模型

使用C站浏览器插件 下载模型这里推荐一个模型（下了很多模型还没来得及测试）：

majicMIX realistic 麦橘写实

用于生成逼真的人物肖像底层模型

底层模型是模型生成图像所必需的，是模型的核心部分，可以相当于说基础数据集。

直接完成就能自动进入左上角的Stable Diffusion 模型(ckpt) 选项切换就行了

画图

这里我使用的是 majicmixRealistic 这个底层模型生成一个人物

需要提示词prompt提示词，找了一些prompt社区里面的关键词
正面提示：

 jk_lure_dress3,8k,(realistic:1.1), (photorealistic:1.1), (masterpiece:1.1), (best quality:1.1), RAW photo, highres, ultra detailed, High detail RAW color photo,professional photograph,masterpiece, best quality,realistic,realskin,1girl,low_key,solo,lighting,long hair ,full body, standing,classroom, beautiful detailed eyes,natural lighting,, (detailed face:1.2),extremely beautiful face,



  * 1
  * 2

负面：

white background, simple background, (ng_deepnegative_v1_75t), (badhandv4), (worst quality:2), (low quality:2), (normal quality:2), lowres, watermark, monochrome



  * 1
  * 2

我这里生成的人物素材是全身的，所以宽度我设置的是512，高度是1024，批次数量测试的时候就1个，几秒一个图，调好了话就一次多生成几个图，就选择每批次4-8个。

随机种子-1 就是完全随机，想要生成的图片一致，把相关参数分享出去让别人生成一样的图片，这个随机种子参数就不能设置成-1。

Stable Diffusion有很多采样器类型，稍微查了一下资料，是指一种指用于生成图像的算法，对图像质量，速度，艺术风格有关，我这里使用DPM++
SDE Karras，

需要选中启用，显存小启用现存优化，然后开启预览，看下设置下面点击爆炸icon 预览是否正确

然后最重要的是控制网络这里，需要上传一个图片到控制单元0，注意白底黑字就要选择预处理器第一个反色处理，黑底白字就可以选择最后一个仅重采样，然后点击一下预处理器和模型中间
爆炸的图片查看预览是否图片有正常的字显示

这个图片可以自己在windows 电脑画图中画一个大概流程新建图片，插入文字，调整字体和大小，裁剪，保存，图片中字体位置
代表了融入图片的大概的位置，尽量居中，控制留白位置来控制在融入图片的位置，我这里是基本占满图片的设计

然后设置非常重要的三个参数，控制强度，控制介入开始时间和结束时间。这三个参数代表控制网络对图片影响
控制强度为 1.0 控制网络对生成图像的影响最大，字就最明显，控制强度为 0就不会有任何影响，所以这个参数应该在0.5到0.8之间，
开始时间和结束时间就是在控制强度正常的情况下对于随机图片元素的效果的影响。控制介入时机越晚，控制网络的影响就越晚开始，生成的图像就越随机，控制结束时机越晚，控制网络的影响就越晚结束，生成的图像就越随机，相反就反之。

这里大概三个参数分别差不多就在0.7，0.2，0.7这附近，可以根据自己的测试调整

这里测试了几个字，字的笔画复杂度和粗细和控制网络参数有一定关系，需要自己反复调整：

测试

除了字，还有网上特别火的图片背景融入的例子自己也测了一下，看看效果：

效果还不错，生成的十张图片可以挑选出1到3张非常完美的图片出来，因为有一定几率会出现眼睛，手指有问题的现象的情况，找到有几种解决方案还没来得及尝试。

Stable Diffusion 还有很多内容没有研究，实际上互联网上的真实有用案例教程还是很少的，需要自己去钻研，大模型时代的机遇和挑战已经来了。

接下来会研究其他风格图像生成，lora模型，和API 调用方向~ 关注我了解更多大模型相关的知识！

针对各位AIGC初学者，这里列举了一条完整的学习计划，感兴趣的可以阅读看看，希望对你的学习之路有所帮助，废话不多说，进入正题：

请添加图片描述

目标应该是这样的：

第一阶段（30天）：AI-GPT从入门到深度应用

该阶段首先通过介绍AI-GPT从入门到深度应用目录结构让大家对GPT有一个简单的认识，同时知道为什么要学习GPT使用方法。然后我们会正式学习GPT深度玩法应用场景。

-----------

GPT的定义与概述
GPT与其他AI对比区别
GPT超强记忆力体验
万能GPT如何帮你解决一切问题？
GPT表达方式优化
GPT多类复杂应用场景解读
3步刨根问底获取终极方案
4步提高技巧-GPT高情商沟通
GPT深度玩法应用场景
GPT高级角色扮演-教学老师
GPT高级角色扮演-育儿专家
GPT高级角色扮演-职业顾问
GPT高级角色扮演-专业私人健身教练
GPT高级角色扮演-心理健康顾问
GPT高级角色扮演-程序UX/UI界面开发顾问
GPT高级角色扮演-产品经理
GPT高级技巧-游戏IP角色扮演
GPT高级技巧-文本冒险游戏引导
GPT实操练习-销售行业
GPT实操练习-菜谱推荐
GPT实操练习-美容护肤
GPT实操练习-知识问答
GPT实操练习-语言学习
GPT实操练习-科学减脂
GPT实操练习-情感咨询
GPT实操练习-私人医生
GPT实操练习-语言翻译
GPT实操练习-作业辅导
GPT实操练习-聊天陪伴
GPT实操练习-育儿建议
GPT实操练习-资产配置
GPT实操练习-教学课程编排
GPT实操练习-活动策划
GPT实操练习-法律顾问
GPT实操练习-旅游指南
GPT实操练习-编辑剧本
GPT实操练习-面试招聘
GPT实操练习-宠物护理和训练
GPT实操练习-吸睛爆款标题生成
GPT实操练习-自媒体爆款软件拆解
GPT实操练习-自媒体文章创作
GPT实操练习-高效写作推广方案
GPT实操练习-星座分析
GPT实操练习-原创音乐创作
GPT实操练习-起名/解梦/写诗/写情书/写小说
GPT提升工作效率-Word关键字词提取
GPT提升工作效率-Word翻译实现
GPT提升工作效率-Word自动填写、排版
GPT提升工作效率-Word自动纠错、建议
GPT提升工作效率-Word批量生产优质文章
GPT提升工作效率-Excel自动化实现数据计算、分析
GPT提升工作效率-Excel快速生成、拆分及合并实战
GPT提升工作效率-Excel生成复杂任务实战
GPT提升工作效率-Excel用Chat Excel让效率起飞
GPT提升工作效率–PPT文档内容读取实现
GPT提升工作效率–PPT快速批量调整PPT文档
GPT提升工作效率-文件批量创建、复制、移动等高效操作
GPT提升工作效率-文件遍历、搜索等高效操作
GPT提升工作效率-邮件自动发送
GPT提升工作效率-邮件自动回复
GPT接入QQ与QQ群实战
GPT接入微信与微信群实战
GPT接入QQ与VX多用户访问实战
GPT接入工具与脚本部署实战

第二阶段（30天）：AI-绘画进阶实战

该阶段我们正式进入AI-绘画进阶实战学习，首先通过了解AI绘画定义与概述，AI绘画的应用领域，PAI绘画与传统绘画的区别，AI绘画的工具分类介绍的基本概念，以及AI绘画工具Midjourney、Stable Diffusion的使用方法，还有AI绘画插件和模板的使用为我们接下来的实战设计学习做铺垫。