【AI绘图】咒术师的评级指南

成为咒术师之路

python版本要选用3.9.7
C盘或系统缓存目录预留5G空间

咒术师评级

在这里插入图片描述

以下内容仅供参考。。

三级咒术师

理解咒言的使用,正向咒言,逆向咒言,构图要素的表达

二级咒术师

能够对咒物做后期调整,校正手部

一级咒术师

色彩理解,校正透视构图
场景构图要素表达,灵活使用多种AI工具
有些工具擅长表达场景,有些工具擅长表达人物

特级咒术师

能够对咒物进行魔改,
重新绘制咒物的姿态,
咒物的姿态大多以静止为稳定,
如果加入动态行为,
就容易陷入混沌。
比如吃面难题,全部都是偶像大师。

成为强大的咒术师吧,加油!!

图像生成模型 :Diffusion Model

Diffusion Model就像是在雕刻一块大理石,初始是一个巨大噪声的图像,经过一层层降噪,逐渐雕刻出一个新的图像
使用降噪而不是直接生成图片,是因为产生噪声图很容易,但是产生一张成品图片很难

在这里插入图片描述

Step

Step用于描述原始图像的噪音程度,Step越大,原始图像噪声越大,需要Denoise的次数也就越多。

在这里插入图片描述

Noise Predicter

Noise Predicter :预测输入图片中的噪音长什么样子,同时根据给入的Step分析(Step越高说明噪声越大),然后把预测出来的噪音输出为一张噪音图,然后把输入图片减掉噪声图,就得到的denoise的结果

在这里插入图片描述

Noise Predicter的训练过程

输入是带有Noise的图片和Step数量,输出是只有Noise

这样的训练资料可以自动化生成

  1. 数据集中取出一张图片
  2. 然后从高斯分布中随机采样一张噪声图,加起来,组成一张带有噪声的图片,并标注上Step从1开始
  3. 重复上一个操作,给上一步生成的带有噪声的图片再加一层噪声,直到整张图片看不出来原来是什么东西

这个加噪声的过程叫做:Forward Process 或者 Diffusion Process

加入Text-To-Image功能

在这里插入图片描述
LAION上有58.5亿张图片,这是目前大图像模型训练集的主要来源。
LAION网站上每个图片都有Tag(标签),就可以把Text和Image对应起来。
在这里插入图片描述
改造noise predicter,在输入里额外加入文字标签
在这里插入图片描述

当前最火热的图像生成模型 :Stable Diffusion

在这里插入图片描述
用Text Encoder把Tag转换为向量
在这里插入图片描述
接下来会用Generation Model 生成压缩版本图片数据,Diffusion Model 是其中一种

在这里插入图片描述
Decoder会把图片的压缩版本还原回原来的图片

在这里插入图片描述
stable diffusion 的输入可以是图片, 可以是文字,统统传入encoder

Text Encoder

可以用GPT或者BERT

FID

FID : 评判影像生成模型的好坏
要有一个预训练好的CNN模型,对图像进行分类
在这里插入图片描述
在这里插入图片描述
两组分类越接近说明生成的图像和原图像越接近,
分类越远,说明生成的图像和原图像越远。
假设都是高斯分布,就算这两个高斯分布的距离

CLIP

在这里插入图片描述
用400M个图片文字输入对,训练出来的预训练模型

在这里插入图片描述

Decoder

不需要文字资料,即可训练
在这里插入图片描述

原理课上讲,实际上噪音不是一步一步加的,而是用公式可以直接加任何一步的噪声
在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值