AIGC方向，零基础的AI生图实践Task1！#Datawhale X 魔搭 AI夏令营#Datawhale AI 夏令营 #Datawhale #夏令营第四期-CSDN博客

本文链接：https://blog.csdn.net/2402_86522838/article/details/141037660

#Datawhale X 魔搭 AI夏令营#Datawhale AI 夏令营 #Datawhale #夏令营第四期

今天Datawhale AI夏令营第四期正式开始了，我报名参加了本期的AIGC板块。我本人接触AI生图也有一段时间了，使用过包括Midj、SD、吐司等一些市面常见的AI生图工具。但是，在AI生图这块儿，我更多的是直接使用别人搭建好的现成模型，虽然我自己总结和探索过一些Prompt,但是关于模型训练与改进、Lora调整等方面的知识一窍不通。因此，希望通过这一期的夏令营项目，能够继续充实自己的知识，希望自己能够在感兴趣的领域走的更远。接下来，我梳理一下本期夏令营AIGC方向Task1的一些内容以及我的一些关注点与尝试点。

首先，对几个AI生图中常见的概念做下解释：1.关于提示词或prompt。也就是对作者想要表现的想要生成的画面的描述，一般AI会根据作者输入的提示词或prompt来生成图片。目前，用户的常见构思都能够比较符合地生成，但有时也会出现“答非所问”“风格不符”等现象，这时候就需要调整或改进提示词或者从根本上对模型进行改进，训练作者想要实现的模型。2.关于Lora。此处使用Datawhale给出的解释，即Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank Adaptation”，即低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。这里我不禁想起，我曾经去美术馆参观国画展的经历。那一次参观我恰好遇到了一位在做AI生图的工作者，我向他问起，这画展中国画的一些技艺手法，诸如纸本设色、工笔等能够在目前的AI绘画中实现吗，当时他回答，目前还没有此类模型被训练出，但大家也都在努力去训练实现，因为如果被国外的工具率先实现，那么久而久之，此种绘画手法的“中国属性”还有没有那么强就不好说了。

其次，是关于此次Task1的指南整理。这次我们依然是在魔塔社区以及阿里云天池的平台帮助下来进行实践。第一步，下载Baseline文件。关于我对Baseline是什么的理解，在上一期夏令营的笔记中有过描述，此处就不多说了。具体关于本次Datawhale的Baseline学习，放在了后续学习中，Task1还是比较友好，我们只需要跑通它就好哈哈哈。打开Baseline之后需要安装环境，包括数据处理和转换工具（旨在简化数据的提取、转换和加载过程）以及高效微调训练大模型工具。整个部署好之后，一键运行即可（提示词放进了整个过程中，作者可以找到并进行修改，但第一次尝试我没有进行修改，想着先跑通看看结果如何）。具体来说，不同板块的代码对应有如下的功能，这里直接使用Datawhale的说明：

使用Data-Juicer处理数据，整理训练数据文件
使用DiffSynth-Studio在基础模型上，使用前面整理好的数据文件进行训练微调
加载训练微调后的模型
使用微调后的模型，生成用户指定的prompt提示词的图片

最后，值得一提的是，在本次实践过程中，我使用了与速通指南相同的提示关键词，生成的图片也一模一样。在其他的诸如Midj、SD等工具中，即使提示词一样，每次生成的图片也都会不同，这让我感觉到，或许Baseline还有改进的空间，这是我在随机种子这块儿的一点点猜测，或许是我理解不对，欢迎大家指正。因此，从这里我根据自己的猜测来回答Task1最后留的一个问题，我认为在Task1的Baseline中图片风格是不能改变的，无法直接生成其他类型的图片，这需要后续改进微调来实现。