AI绘画原理

智慧的牛

已于 2024-09-02 14:11:20 修改

阅读量46

点赞数 1

分类专栏：机器学习文章标签： AI作画人工智能

于 2024-09-02 14:09:58 首次发布

原文链接：https://baijiahao.baidu.com/s?id=1754984836579286508&wfr=spider&for=pc

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

CLIP/对比式语言-图片预训练

如果让你把左侧三张图和右侧三句话配对，你可以轻松完成这个连线。但对AI来说，图片就是一系列像素点，文本就是一串字符串，要完成这个工作可不简单。

这需要AI在海量"文本-图片"数据上学习图片和文本的匹配。下图绿色方块是“图片潜在空间”的N张图，紫色方块是"文本潜在空间"的N句描述语，AI会努力将对应的I1和T1（蓝色方块）匹配，而不是I2和T3（灰色方块）匹配。这个AI就是广泛被用在AI作画中的CLIP(Contrastive Language Image Pre-Training/对比式语言-图片预训练)。

当AI能成功完成这个连线，也就意味着AI建立了"文字潜在空间"到"图片潜在空间"的对应关系。这就是AI能够根据提示语"一只骑摩托车的大熊猫"找到"图片潜在空间"中对应(图片)点的原因。

图片：我散开了——Diffusion的自白

从图片潜在空间中的一个点得到一张高清图片，相当于给你一个身份证号让你在全国14亿人中找到这个人，难度可想而知。

对AI来说，过去大家熟知一些AI图像生成的项目主要使用了GAN技术（Generative Adversarial Network生成对抗网络）。GAN的一大缺陷是不好加条件，比如AI只知道要生成人脸，但没法儿指定让AI生成黑长直美女头像。

为了让AI听懂人话，Diffusion(扩散)技术逐渐成为AI生成图像领域的新宠。如何理解Diffusion技术？Diffusion来自一个物理现象：当我们把墨汁滴入水中，墨汁会均匀扩散；这个过程一般不能逆转，那AI可以做到吗？

当墨汁刚滴入水中时，我们能区分哪里是墨哪里是水，信息是非常集中的；当墨汁扩散开来，就很难区分哪里是墨哪里是水了，信息是分散的。类比于图片，这个墨水扩散的过程就是图片逐渐变成噪点的过程：从信息集中的图片变成信息分散、没有信息的噪点图很简单，逆转这个过程就需要AI的加持了。

研究人员对图片加噪点，让图片逐渐成为纯噪点图；再让AI学习这个过程的逆过程，也就是如何从一张噪点图得到一张有信息的高清图。

跟GAN相比，Diffusion是可以加条件的，也就是我们指定AI生成图片时描述的那句话。依靠这样的学习，AI就实现了我们看到的一句话生成图片的惊艳效果。

图片引用：

画宇宙 - 人工智能 AI 作画网站

https://openai.com/blog/clip/
https://unsplash.com/

图片：“我散开了” ～ Diffusion 的自白

https://www.youtube.com/watch?v=yTAMrHVG1ew
https://www.assemblyai.com/blog/diffusion-models-for-machine-learning-introduction/

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AI绘画原理

本文讲解了AI作画的两个原理：对比式语言-图片预训练和散开。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。