AIGC的第二次实践#有奖赛事#Datawhale X 魔搭 AI夏令营-CSDN博客

本文链接：https://blog.csdn.net/2402_86680664/article/details/141201163

Datawhale 2024 年 AI 夏令营第四期的学习活动（“AIGC”方向）

该活动为面向“可图Kolors-LoRA风格故事挑战赛”开展的实践学习

所有人均可参与，全程免费，参与方式为线上报名

想要免费体验AI作图的可以参与一下

ps：参与该夏令营并完成一定任务，有机会获得暑假实践证明

前言

AIGC的第二次实践主要是学习利用AI大模型，帮助我们更好的进行图生文。

~~（ps：事实上，在AICG的第一次尝试时，我就已经使用AI大模型来帮助我生成关键词）~~

第二次实践主要研究方向就是利用AI大语言模型帮助我们快速的理解训练AI模型中的代码用途，以及用大语言模型加快AI绘画创作的过程

实践过程

登录魔搭后并创建实例（详细教程可参考上篇文章）

注意：重新关闭实例后再次开启实例，系统不会保存上次的文件。这意味这我们需要重新配置环境。

环境配置

如下图，右键并删除kolors文件夹

然后重新克隆文件夹，具体教程已在上篇文章详细描述，这里简单带过

运行以下代码

git clone https://www.modelscope.cn/datasets/maochase/kolors.git

接下来步骤同上篇文章，这里不再过多赘述

AI大语言模型生成关键词

魔搭训练营的教程是使用通义千问模型进行学习辅助

这里我使用百度的文心一言（事实上，大部分AI大语言模型都可以使用）

这里再给出几个免费的AI网站：

https://codenews.cc/chatgpt

https://kimi.moonshot.cn/

Step 1（明确需求）

作为使用AI大语言模型的第一步，我们需要告诉AI我们的需求

例如：我们可以告诉AI

同时，我们也可以向AI提出我们的需求，确定图片的风格，示例如下（与AI的对话很多时候其实不用太在于语言的连贯性，你可以看到，在我的例子中，我不断的提出我的要求，要求之间使用的是句号进行连接。在借助AI生成提示词时，我们可以不用费心费力去考虑语言的通顺与否，我们只需要保证我们的需求表达明确。

你是一个文生图专家，我们现在要做一个实战项目，就是要编排一个文生图话剧。话剧由8张场景图片生成，你需要输出每张图片的生图提示词。请确保话剧每幅图之间有故事的连贯性，图片风格一致，人物形象一致。图片要有美感。

对于不擅长使用大语言模型的新手来说，我们可以化主动为被动，将“向AI提出需求”变为“AI提问我们，确定我们的需求”

我们可以告诉AI

你是一个文生图专家，我们现在要做一个实战项目，就是要编排一个文生图话剧。你需要问我一些关于这个话剧的信息，来帮助生成关键词。你可以问我话剧风格，故事情节，任务形象等问题。请尽可能详细的询问我这些问题，并从我的回答中确定我的需求

同时，我们也可以告诉AI一些关键词形成的要素，例如：

关键词有顺序之分，越靠前的关键词权重越大
一般的关键词构成为“主体描述，细节描述，修饰词，艺术风格，艺术家”
关键词需要精简、准确

事实上，与AI的对话过程，也是我们训练AI为我们所用的一部分

不断地调整AI输出结果的过程，也是帮助我们理解和调教AI的过程

Step 2（关键词获取）

通过对AI说明我们的需求，我们可以让AI生成符合我们想法的关键词

将我们获取到的关键词，填入每幅图片的prompt中，如下图

Step 3（修正）

直接使用AI生成的图片，多多少少存在一些问题，这时候我们需要进行修正。存在问题的图片如下：

可以看到，第五幅图像变成了两个男的，这明显不符合我们的需求，以及第七幅图像风格与情景不符，所以我们将这些图像存在的问题告诉AI，让AI来修正这些关键词，修改完关键词后，我们手动生成下图像，不断进行微调，直到获得一个满意的成果

按下对于图像的开始按钮，即可重新生成图像，执行最后一个命令，即可输出结果

微调图像

我们可以从几个方面对图像进行微调

首先，我们的任务是完成一个话剧，作为一个话剧，画面连贯性很重要，我们可以注意几点：人物的形象一致（例如发色、衣服颜色、发型）；画面风格连贯（为了话剧的连贯性，我们要确保话剧故事发生的场景不会过于跳脱，例如从古代以下变到现代，这明显是反常识的）；画面细节（AI生成的图片，经常会出现一些细节不到位的情况，例如下图，整体看上去并不突兀，但是当你细看人物手臂时就会发现，人物手臂不正常）

这种时候，我们可以在negative_prompt（负面关键词）中进行设置，例如在negative_prompt中添加一条“不正常的手臂”

除了以上几点，我们还可以从多方面微调图像：色调、光线方向、人物朝向等。我们完全可以发挥我们的想象，对画面进行微调

成果展示

总结

在AI绘画领域，AICG的第二次实践充分利用了大语言模型在文本生成与语义理解上的优势，创新性地将其融入绘画创作流程中。大语言模型能够基于输入的文本描述或概念，快速生成与之相匹配的图像创作指令或风格参数，直接指导AI绘画系统生成符合要求的艺术作品。这一流程极大地缩短了从创意构思到作品呈现的时间，使得AI绘画更加高效、灵活且富有创意，进一步拓宽了AI艺术创作的边界