Datawhale X 魔搭 AI夏令营–AIGC Task1-CSDN博客

本文链接：https://blog.csdn.net/by_x_y_z/article/details/141103414

Datawhale X 魔搭 AI夏令营–AIGC Task1

文章目录

- - Datawhale X 魔搭 AI夏令营--AIGC Task1

官方参考

这是Datawhale 2024 年 AI 夏令营第四期的学习活动（“AIGC”方向），目标是从通过代码实现AI文生图逐渐进阶，偏重图像工作流、微调、图像优化等思路，最后简单了解AIGC应用方向、数字人技术。

赛事介绍

赛事任务：

参赛者需在可图Kolors 模型的基础上训练LoRA 模型，生成无限风格，如水墨画风格、水彩风格等。
基于LoRA模型生成 8 张图片组成连贯故事，故事内容可自定义；基于8图故事，评估LoRA风格的美感度及连贯性

评分标准：本次比赛通过客观评分判断选手提交作品的有效性，但最终评分以主观评分为准。

主观评分：由评委对参赛作品进行投票，评审标准可以从技术运用（40%）、组图风格连贯性（30%）、整体视觉效果（30%）几方面进行评判投票。
客观评分：美学分数仅作评价提交是否有效的标准，其中美学分数小于6（阈值可能根据比赛的实际情况调整，解释权归主办方所有）的提交被视为无效提交，无法参与主观评分。

此外，会核实选手上传的模型文件，选手需提交训练的LoRA 模型文件、LORA 模型的介绍、以及使用该模型生成的至少8张图片和对应 prompt，以便我们能够复现生成效果，对于生成效果明显无法复现的，取消获奖资格。

文生图基础知识介绍

文生图主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。

download_image

提示词prompts
- 一般写法：主体描述，细节描述，修饰词，艺术风格，艺术家
- 负向prompts如“丑陋、变形、嘈杂、模糊、低对比度”
Lora：Low-Rank Adaptation
- LoRA模型是一种轻量级的微调方法，代表低秩适应。
- Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。
- 在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。
ComfyUI
- 这是一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程。
- 通过直观的界面和集成的功能，用户可以轻松地进行模型微调、数据预处理、图像生成等任务，从而提高工作效率和生成效果
参考图控制
- ControlNet是一种用于精确控制图像生成过程的技术组件，是一个附加到预训练的扩散模型（如Stable Diffusion模型）上的可训练神经网络模块。
- 扩散模型通常用于从随机噪声逐渐生成图像的过程，而ControlNet的作用在于引入额外的控制信号，使得用户能够更具体地指导图像生成的各个方面（如姿势关键点、分割图、深度图、颜色等）。
具体参考图控制类型参见(https://datawhaler.feishu.cn/wiki/CMYkwKow0ihxOikg1G9cd9Zhnng#SGhSd73NIooluxx7j7UcIz7On0g)

实践操作

step0：开通阿里云PAI-DSW试用

前往阿里云

前往魔搭社区授权

若阿里云试用失败或到期，可以使用魔搭免费GPU额度

step1：报名赛事

可图Kolors-LoRA风格故事挑战赛

step2：创建PAI实例

魔搭社区

step3：运行

下载baseline

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

进入脚本
安装环境，然后重启kernel
- Data-Juicer：数据处理和转换工具，旨在简化数据的提取、转换和加载过程
- DiffSynth-Studio：高效微调训练大模型工具
调整prompt
点击代码框左上角执行按钮（restart kernal and run all cells），最终获得图片（耗时较久），代码块功能：
1. 使用Data-Juicer处理数据，整理训练数据文件
2. 使用DiffSynth-Studio在基础模型上，使用前面整理好的数据文件进行训练微调
3. 加载训练微调后的模型
4. 使用微调后的模型，生成用户指定的prompt提示词的图片

注：模型训练完成后，若因error重启kernal，不需要全部重新运行，将涉及部分变量的代码块运行即可，耗时最长的训练部分不需要再次运行

step4：保存、上传

打开终端，移动结果

mkdir /mnt/workspace/kolors/output & cd 
cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch\=0-step\=500.ckpt /mnt/workspace/kolors/output/
cp /mnt/workspace/kolors/*.jpg /mnt/workspace/kolors/output/