干货在后面
成为咒术师之路
python版本要选用3.9.7
C盘或系统缓存目录预留5G空间
咒术师评级
以下内容仅供参考。。
三级咒术师
理解咒言的使用,正向咒言,逆向咒言,构图要素的表达
二级咒术师
能够对咒物做后期调整,校正手部
一级咒术师
色彩理解,校正透视构图
场景构图要素表达,灵活使用多种AI工具
有些工具擅长表达场景,有些工具擅长表达人物
特级咒术师
能够对咒物进行魔改,
重新绘制咒物的姿态,
咒物的姿态大多以静止为稳定,
如果加入动态行为,
就容易陷入混沌。
比如吃面难题,全部都是偶像大师。
成为强大的咒术师吧,加油!!
图像生成模型 :Diffusion Model
Diffusion Model就像是在雕刻一块大理石,初始是一个巨大噪声的图像,经过一层层降噪,逐渐雕刻出一个新的图像
使用降噪而不是直接生成图片,是因为产生噪声图很容易,但是产生一张成品图片很难
Step
Step用于描述原始图像的噪音程度,Step越大,原始图像噪声越大,需要Denoise的次数也就越多。
Noise Predicter
Noise Predicter :预测输入图片中的噪音长什么样子,同时根据给入的Step分析(Step越高说明噪声越大),然后把预测出来的噪音输出为一张噪音图,然后把输入图片减掉噪声图,就得到的denoise的结果
Noise Predicter的训练过程
输入是带有Noise的图片和Step数量,输出是只有Noise
这样的训练资料可以自动化生成
- 从数据集中取出一张图片
- 然后从高斯分布中随机采样一张噪声图,加起来,组成一张带有噪声的图片,并标注上Step从1开始
- 重复上一个操作,给上一步生成的带有噪声的图片再加一层噪声,直到整张图片看不出来原来是什么东西
这个加噪声的过程叫做:Forward Process 或者 Diffusion Process
加入Text-To-Image功能
LAION上有58.5亿张图片,这是目前大图像模型训练集的主要来源。
LAION网站上每个图片都有Tag(标签),就可以把Text和Image对应起来。
改造noise predicter,在输入里额外加入文字标签
当前最火热的图像生成模型 :Stable Diffusion
用Text Encoder把Tag转换为向量
接下来会用Generation Model 生成压缩版本图片数据,Diffusion Model 是其中一种
Decoder会把图片的压缩版本还原回原来的图片
stable diffusion 的输入可以是图片, 可以是文字,统统传入encoder
Text Encoder
可以用GPT或者BERT
FID
FID : 评判影像生成模型的好坏
要有一个预训练好的CNN模型,对图像进行分类
两组分类越接近说明生成的图像和原图像越接近,
分类越远,说明生成的图像和原图像越远。
假设都是高斯分布,就算这两个高斯分布的距离
CLIP
用400M个图片文字输入对,训练出来的预训练模型
Decoder
不需要文字资料,即可训练
原理课上讲,实际上噪音不是一步一步加的,而是用公式可以直接加任何一步的噪声