AI绘画原理

CLIP/对比式语言-图片预训练

如果让你把左侧三张图和右侧三句话配对,你可以轻松完成这个连线。但对AI来说,图片就是一系列像素点,文本就是一串字符串,要完成这个工作可不简单。

这需要AI在海量"文本-图片"数据上学习图片和文本的匹配。下图绿色方块是“图片潜在空间”的N张图,紫色方块是"文本潜在空间"的N句描述语,AI会努力将对应的I1和T1(蓝色方块)匹配,而不是I2和T3(灰色方块)匹配。这个AI就是广泛被用在AI作画中的CLIP(Contrastive Language Image Pre-Training/对比式语言-图片预训练)。

当AI能成功完成这个连线,也就意味着AI建立了"文字潜在空间"到"图片潜在空间"的对应关系。这就是AI能够根据提示语"一只骑摩托车的大熊猫"找到"图片潜在空间"中对应(图片)点的原因。

图片:我散开了——Diffusion的自白

从图片潜在空间中的一个点得到一张高清图片,相当于给你一个身份证号让你在全国14亿人中找到这个人,难度可想而知。

对AI来说,过去大家熟知一些AI图像生成的项目主要使用了GAN技术(Generative Adversarial Network生成对抗网络)。GAN的一大缺陷是不好加条件,比如AI只知道要生成人脸,但没法儿指定让AI生成黑长直美女头像。

为了让AI听懂人话,Diffusion(扩散)技术逐渐成为AI生成图像领域的新宠。如何理解Diffusion技术?Diffusion来自一个物理现象:当我们把墨汁滴入水中,墨汁会均匀扩散;这个过程一般不能逆转,那AI可以做到吗?

当墨汁刚滴入水中时,我们能区分哪里是墨哪里是水,信息是非常集中的;当墨汁扩散开来,就很难区分哪里是墨哪里是水了,信息是分散的。类比于图片,这个墨水扩散的过程就是图片逐渐变成噪点的过程:从信息集中的图片变成信息分散、没有信息的噪点图很简单,逆转这个过程就需要AI的加持了。

研究人员对图片加噪点,让图片逐渐成为纯噪点图;再让AI学习这个过程的逆过程,也就是如何从一张噪点图得到一张有信息的高清图。

跟GAN相比,Diffusion是可以加条件的,也就是我们指定AI生成图片时描述的那句话。依靠这样的学习,AI就实现了我们看到的一句话生成图片的惊艳效果。

图片引用:

画宇宙 - 人工智能 AI 作画网站

  • https://openai.com/blog/clip/

  • https://unsplash.com/

图片:“我散开了” ~ Diffusion 的自白

  • https://www.youtube.com/watch?v=yTAMrHVG1ew

  • https://www.assemblyai.com/blog/diffusion-models-for-machine-learning-introduction/

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值