DALL·E这波超进化,画质艺术感双飞升,还学会了无痕P图

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

把椅子上的萌犬P成猫猫,需要几步?

第一步,圈出狗狗。第二步,告诉AI你的需求。鼠标一点,齐活。

c6f488547fa28054b7af28c80ba0cab8.gif

这位AI P图大师,其实是位老朋友——OpenAI风靡全球的那位DALL·E

现在,它刚刚完成了“2.0超进化”。不仅新学了一手出神入化的P图绝技,创作质量也有了飞跃式的提升。

话不多说,直接看作品感受一下~

这是DALL·E 2在“星云爆炸状柯基头”这一提示下的创作出来的画作:

29bd8f72b31fec9e07b45e6ace870ce4.png

这幅萨尔瓦多·达利的画像,是不是有点萨尔瓦多·达利内味儿了?

3b1c39234f777b6c08840ccafa8ccf8d.png

跟初代DALL·E比起来,着实是画质与艺术感双双飞升了。

1fee74b9034688c01dee78d2c11af12d.png
“日出时分安坐在田野里的狐狸,莫奈风格”

所以,研究人员具体如何点亮了DALL·E的新技能点?

CLIP+扩散模型

DALL·E此番进化,简单来说就是分辨率更高了,延迟更低了。

此外,还有更新2大新功能:

首先,在更细粒度上实现文本→图像功能。

也就是说,DALL·E 2可以根据自然语言提示进行P图。在P图的过程中,还会考虑阴影、反射、纹理等元素的变化。

比如在左图标“2”的位置P一个火烈鸟泳圈,DALL-E 2会把水面倒影这种细节也处理到位。

d1e193ad1016fb8e2fcd0d9b7aaf47ca.png

其次,是可以在保留原作核心元素的基础之上,赋予原作船新的风格。

并且生成画面的画质是DALL·E 1的4倍,即从256×256提升到了1024×1024。

bef375c476605b6d825088e9a3c16e04.png

具体的实现方法,用OpenAI官方的话来说,就是结合了CLIP和扩散模型两种技术的优点。

CLIP是原版DALL·E功能实现的基础,是一个负责给图像重排序的模型,其零样本学习能力已经在各种视觉和语言任务上大放异彩。

而扩散模型的特点在于,在牺牲多样性的前提下,能大大提升生成图像的逼真度。

于是,OpenAI的研究人员设计了这样一种方案:

00223969755dfb1876df1ba8b3a672b2.png

在这个名为unCLIP的架构中,CLIP文本嵌入首先会被喂给自回归或扩散先验,以产生一个图像嵌入。

而后,这个嵌入会被用来调节扩散编码器,以生成最终的图像。

OpenAI解释称,DALL·E能够get图像和用于描述画面的文本之间的关系。其图像的生成是在“扩散”过程中完成的,可以理解为是从“一堆点”出发,用越来越多的细节去把图像填充完整。

e129217c058821dbb8ef0774f63a5d2f.png

研究人员将DALL·E 2与DALL·E、GLIDE等模型进行了对比。

c4f4f445deb42139887fe04e4780c5ce.png

实验结果显示,DALL·E 2的图像生成质量与GLIDE相当,但DALL·E的生成结果更具多样性。

4d23da7a20a062bb059550d589e08856.png

目前,DALL·E 2并未对公众开放,不过如果你感兴趣,可以在线注册申请一发~

52237b9634183175b8bbe2f58f8e4305.png

项目地址:
https://openai.com/dall-e-2/#demos

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值