由于AI第一案的出现,本来已经沉寂已久的AI绘画又一次出现在了我们的视野里。这一次看向AI绘图的人,不仅有年轻人和行业的从业者,还有很多外界人士。
最近受到学校老师的委托,教一位对AI第一案十分关注,并且对AI有兴趣想要跟上时代的长辈使用AI绘图,按她的说法就是掌握一项新技能,让自己不至于被时代淘汰。
现在AI的能力很强大,无论是大语言模型还是扩散绘图模型亦或者是识别类的YOLO网络,他们的能力都已经足以对传统行业产生了巨大的冲击,特别是现在各种办公软件和社交软件都接入了AI系统,已经可以下定论,AI即将成为一项新的职场基本技能。
由于长辈的设备是比较老的办公本,所以我教的时候用的是《绘世》整合包,她自己尝试的时候用的是某网站的线上绘图。
在掌握了AI绘画有关的一些基础信息和基础名词以及参数的调整之后,她就开始了自己的第一次尝试。
一开始她是用AI第一案判决书中的提示词,和这个案子一样,在线上跑了一些少女的图片,因为是用的默认设置,而且没有对其中的参数进行微调,所以画出来的图片不能说一模一样,只能说是从一个模子里刻出来的。看多了就感觉非常的僵硬,而且没有解决手的问题。但是也算是自己独立使用AI完成了一次“创作”。
(长辈在SD网站版运行第一案判决书中第一条指令的截图)
(使用第一案判决书中第一条指令的正反向词通过文生图生成的图-1)
(使用第一案判决书中第一条指令的正反向词通过文生图生成的图-2)
(按照判决书的步骤使用上图一二的指令在正向词中增加“shy,elegent,lust,cool pose,teen,viewing at camera,master piece,best quality”通过文生图生成的图-1)
很快长辈就把这最基础的文生图玩腻了。这时候她突然奇思妙想到想用AI来还原她以前画的一张画《夜幕下的庭审》。
(注:这个时候她还不知道什么是lora模型,由于没有进行本地部署,用的也不是各个大佬发布的整合包,而是线上的网站,所以也没有用各种插件,生成的图片还有很多瑕疵。)
她要还原的《夜幕下的庭审》是她在法院上班的工作日常。首先她画的是室内的图片构图比较复杂,有人、汉字和大量物品。然后又是法庭这种比较敏感的场所,还有国徽这种极度敏感信息,生成的图片十分强差人意。由于网站免费额度有限,生成的速度也比较慢,所以这次的图是我在本地跑的,选用了一个画内场景表现比较好的模型。
(原图《夜幕下的庭审》)
(根据长辈对画作的描述由我设计指令以文生图方式生成的图-1)
(根据长辈对画作的描述由我修正指令以文生图方式生成的图-2)
但是效果很差,基本上看不出来是现代的中国法庭,这里放的是跑出来的图片中稍微能看一点的。那些完全偏离主题太远的就不放在这里了。
长辈也向我询问了原因。
这里其实也是单纯的文生图的局限所在,人很难通过使用自己的语言来描述一张图片,并且转换成AI可以读懂的语义信息。基于SD算法AI绘图的本质就是通过用户给与的提示词提取出AI可以理解的语义信息,然后通过这些信息来选取对应的特征向量,对无意义的噪声图多次的进行增噪和去噪,把一张单纯的无意义噪声图片,“还原”成AI认为的“原图”,也就是给出图片。
也就是说,在不使用任何插件的情况下,使用单纯的文生图是基本不可能对已经出现的艺术作品进行高精度还原的,除非这一作品在所选用AI的训练集中,如果在训练集中,那么还原这张图也就完全没有意义了,毕竟看着答案写题这件事谁都会做。
为了证明上述的纯文生图无法还原已有的作品,我还特意又跑了几张图。比如某没有国服的游戏的人气女神dva。
(暴雪CG截屏)
可以看到,单纯的用提示词来描述,使用文生图功能生成的图片和实际的dva还是有很大的差距,这几张图只能说有点像,DVA的特征有表现出来,但是绝对不多,也没有到看到它的第一眼就能猜出这是dva的程度,距离“还原”还是比较遥远的。
由此可见,还原原有艺术形象,还是要用DVA的lora模型和限定画面的controlnet插件配合一些较为精细的操作来完成,单纯的文生图还是效果太差。
我又用C站上找的一个DVA的lora模型,加上一些限定品控,画出来的效果比之前要好上不少,更像dva一些了。
(以文生图+Lora模型的方式生成的dva)
lora可以理解成是一个AI模型的补丁。lora可以是一种风格。比如说宫崎骏风,美漫风,韩漫风。Lora也可以是角色,像是上面的dva。每一个lora中都储存有所属风格或者所属角色的特征向量。在lora的加持下,即使AI模型在训练的时候没有接触过DVA的图片,不知道到底什么是DVA。它也可以在lora的帮助下把DVA给画出来。
对于之前已经存在的作品也可以用另一种插件来进行比较精确的还原。也就是我上面说过的另一个插件Controlnet.
Control net可以根据算法获取图片中的轮廓,得到一张黑白轮廓图。并且根据这个轮廓图为指导在轮廓图的基础上为整个画作增添血肉。这个插件目前在建筑和设计领域非常常用。这个插件中不少的内容都来自计算机视觉,生成的轮廓图也十分亲切。
(加入插件Controlnet后使用canny算法所生成的《夜幕下的庭审》黑白轮廓图)
(文生图方式+插件Controlnet后生成的图-2)
可以看到,虽然图片还是比较模糊,但是在构图上已经和原来的作品十分相似了。
(由于我自己的设备也不是高端设备,只是个3060的笔记本,所以生成的图片的分辨率并不算高。)
在短时间内找不到合适的模型来画法庭的场景,而且根据长辈的要求使用了宫崎骏漫画风格的lora来限定画风,所以基本没有办法很好的识别图画中的中文,图中的中文要么变成了无意义色块,要么就成了一系列的乱码,所以对原图的还原还是不太到位,但是,已经比纯粹的文生图好了太多了。
单纯的文生图常用于直接出图,不能做到还原已有艺术作品的程度,如果需要还原某个作品或者是角色、构图,还是使用要配合插件做一些精加工的。