AI实现艺术品自动生成？太牛了

本文链接：https://blog.csdn.net/qq_45590504/article/details/124730811

CSDN话题挑战赛第1期
活动详情地址：https://marketing.csdn.net/p/bb5081d88a77db8d6ef45bb7b6ef3d7f
参赛话题：哪项人工智能技术使你感受到了神奇？
话题描述：在你漫长炼丹之旅，哪一项人工智能技术最让你印象深刻？

文章目录

前言

前几日在网上学习NFT制作时，发现了一个NFT作品自动生成的网站wombo，原本以为是通过身体组件遍历组合生成新NFT作品，结果发现是通过提供关键词使AI自动生成作品。

AI都已经可以制作艺术品了吗！！！😲😲😲

图1 AI作品 Man

艺术品是对事物的理解，情感的表达，抽象的阐述。能从不同的角度表现我们的认知。过去认为AI是不可能进入艺术与文化行业的。如今看来此结论似乎并不成立了。

它可以通过输入关键词自动生成AI艺术品，而且每次生成的艺术品都是随机的，这意味着作品具有唯一性。

一、技术介绍

这个AI是怎么绘图的？答案是多模态生成。

0 模态，指的是文本、图像、声音等不同的信息表现形式。

1 多模态，则是把不同类型的信息结合起来。

AI作画主要由两种技术：CLIP和DC-GAN构成。

1.CLIP模型寻找图像

如果给每个图片标上文字描述组成一对，用大量这种图文对去训练AI，就能让它理解到图文之间的对应关系。

图2 CLIP流程

Open AI在2021年1月份发布的DALL-E和CLIP，这两个都属于结合图像和文本的多模态模型，其中DALL-E是基于文本来生成模型的模型，而CLIP是用文本作为监督信号来训练可迁移的视觉模型.

Wombo工程师也曾在一次采访中透露过，他们的算法中就使用了CLIP。

CLIP(Contrastive Language-Image Pre-training)，即一种基于对比文本-图像对的预训练方法或者模型

CLIP使用了4亿组从网上收集的图文对做训练，可以理解颜色和形状，日常物品或建筑物，甚至抽象的艺术风格比如“印象派”或“赛博朋克”。

对于训练好的模型，如果我们给一个输入文本，它就可以找到对应的图片，或者根据图片描述它的内容。

🏆思考一下！如果你有了通过文本找到相匹配图片的方法，那么有没有可能根据我对于事物的描述，可以画出我想要的事物样子的算法呢？

2.DC-GAN模型生成图像

接下来，还要解决图像生成的部分。

😍如果我们有了文本就可以有找到图片的能力，我们有没有可以根据一部小说，生成一部电影呢？

没错，就是GAN了，这里GAN要接受CLIP的调度。

至于Wombo的算法具体使用了哪种GAN，并未公开。但根据网络搜集的信息来看，DC-GAN的可能性最大。

DC-GAN最早于2015年提出，是第一个使用深度卷积网络生成图像的GAN变体。

它可以通过对输入的图像进行

GAN模型包括生成网络G和鉴别网络D，生成网络的目的是生成假的图像使鉴别网络无法鉴别真假，鉴别网络的目的是努力分辨真假图像，练就火眼金睛。最终直到鉴别网络分辨不出生成网络生成的以假乱真的图像为止。

下图是DC-GAN的图解:

图3 DC-GAN流程

生成网络（Generator）接收一个随机噪声z，然后通过上采样（up-sampling）生成图像G(z)。上采样主要采用反卷积算法，G接收一个100-d随机噪声z，经过Project and reshape（实际上就是一个全连接层），转化为一个4*4*1024的feature map，然后经过多个反卷积层，生成大小为64*64*3的图像。

鉴别网络（Discriminator）的输入为一张图片，经过下采样（down-sampling，卷积运算），再接全连接层处理，送入sigmoid函数，输出真假概率。

Wombo生成的是高分辨率图像，卷积在效率上要比Transformer占优势。