Datawhale AI夏令营第四期 魔搭-AIGC方向 Task1笔记
我个人认为,AI成图的基础是通过多项关键词对AI进行调控与操作,最终创造出自己想要的图像,即为文生图(Text-to-Image Generation)。这是一种通过文本生成图像的技术,经过几十年技术的更新与迭代,最终呈现在我们面前的,就是很多人耳熟能详的AI作图。
文生图相关基础
文生图主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。在AI作图的学习中,有这么几个关键词:提示词、lora、ComfyUI和参考图控制。
接下来我将对我所理解的这几个关键词进行介绍。
提示词(prompt)
通俗地说,提示词就是我们上文所提到的“文生图”中的“文”。它由一至多个英文单词组成,自由度极高,对AI作图起着关键作用。
如果我们想要AI作出一个包含女生的图像,我们就可以在提示词栏里输入“girl”,两个女生就是“two girls”。同时,我们也可以对作图风格进行调整。我们可以输入“oil painting“把作图风格改为油画风格。
上述所说,为正方向的提示词。而在提示词栏下面,还有反向提示词(negative prompt),即为我们不想让这张AI图出现什么。比如我们知道的AI图有时人物的手会背在身后,我们就可以在负向提示词栏输“missing fingers“,这样人物的手便会画出来。
提示词不限制数量,提示词越多,AI作图的结果便越符合精准,但同时错误也会随之增多,一部分的提示词根本没被AI采用等问题基本上是家常便饭。这时,我们便需要不厌其烦地对AI模型进行一次又一次的训练,直到AI作出符合我们预期的图像。于是,我们便引出了“模型“这个概念。
Lora
Lora是一种轻量级的微调方法,不是指单一的具体模型。它可以针对性地优化预训练好的大模型,更加精细地把握AI作图过程中的细节,有利于AI朝着我们想要的方向作图。
ComfyUI和参考图控制
ComfyUI 是一个工作流工具,主要用于简化和优化 AI 模型的配置和训练过程,能够提高工作效率和生成效果。参考图控制(ControlNet)能够使用户能够更具体地指导图像生成的各个方面,如姿势关键点等。速通指南里已讲的很详细,在此不过多赘述。
AI作图速通以及赛事报名
速通与赛事报名我们可以直接参考教程,其中赛事评分标准分为主观评分与客观评分,需要特别注意。
主观评分
由评委对参赛作品进行投票,评审标准可以从技术运用(40%)、组图风格连贯性(30%)、整体视觉效果(30%)几方面进行评判投票。
客观评分
美学分数仅作评价提交是否有效的标准,其中美学分数小于6(阈值可能根据比赛的实际情况调整,解释权归主办方所有)的提交被视为无效提交,无法参与主观评分。
这便是TASK1中我所学到的。
初入AI作画,理解不深,如有纰漏,敬请指正。