Datawhale AI夏令营第四期魔搭-AIGC方向 Task1笔记

最新推荐文章于 2024-08-10 00:19:41 发布

TkltCONFUSION

最新推荐文章于 2024-08-10 00:19:41 发布

阅读量83

点赞数 3

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/TkltCONFUSION/article/details/141055701

版权

Datawhale AI夏令营第四期魔搭-AIGC方向 Task1笔记

我个人认为，AI成图的基础是通过多项关键词对AI进行调控与操作，最终创造出自己想要的图像，即为文生图（Text-to-Image Generation）。这是一种通过文本生成图像的技术，经过几十年技术的更新与迭代，最终呈现在我们面前的，就是很多人耳熟能详的AI作图。

文生图相关基础

文生图主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。在AI作图的学习中，有这么几个关键词：提示词、lora、ComfyUI和参考图控制。

接下来我将对我所理解的这几个关键词进行介绍。

提示词(prompt)

通俗地说，提示词就是我们上文所提到的“文生图”中的“文”。它由一至多个英文单词组成，自由度极高，对AI作图起着关键作用。

如果我们想要AI作出一个包含女生的图像，我们就可以在提示词栏里输入“girl”，两个女生就是“two girls”。同时，我们也可以对作图风格进行调整。我们可以输入“oil painting“把作图风格改为油画风格。

上述所说，为正方向的提示词。而在提示词栏下面，还有反向提示词(negative prompt)，即为我们不想让这张AI图出现什么。比如我们知道的AI图有时人物的手会背在身后，我们就可以在负向提示词栏输“missing fingers“，这样人物的手便会画出来。

提示词不限制数量，提示词越多，AI作图的结果便越符合精准，但同时错误也会随之增多，一部分的提示词根本没被AI采用等问题基本上是家常便饭。这时，我们便需要不厌其烦地对AI模型进行一次又一次的训练，直到AI作出符合我们预期的图像。于是，我们便引出了“模型“这个概念。

Lora

Lora是一种轻量级的微调方法，不是指单一的具体模型。它可以针对性地优化预训练好的大模型，更加精细地把握AI作图过程中的细节，有利于AI朝着我们想要的方向作图。

ComfyUI和参考图控制

ComfyUI 是一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程，能够提高工作效率和生成效果。参考图控制（ControlNet）能够使用户能够更具体地指导图像生成的各个方面，如姿势关键点等。速通指南里已讲的很详细，在此不过多赘述。

AI作图速通以及赛事报名

速通与赛事报名我们可以直接参考教程，其中赛事评分标准分为主观评分与客观评分，需要特别注意。

主观评分

由评委对参赛作品进行投票，评审标准可以从技术运用(40%)、组图风格连贯性(30%)、整体视觉效果(30%)几方面进行评判投票。

客观评分

美学分数仅作评价提交是否有效的标准，其中美学分数小于6（阈值可能根据比赛的实际情况调整，解释权归主办方所有）的提交被视为无效提交，无法参与主观评分。

这便是TASK1中我所学到的。

初入AI作画，理解不深，如有纰漏，敬请指正。

关注