Datawhale X 魔搭 AI夏令营(AIGC Task1)学习笔记-CSDN博客

本文链接：https://blog.csdn.net/2303_79295214/article/details/141096617

赛题解读：

参赛者需在可图Kolors 模型的基础上训练LoRA 模型，生成无限风格，如水墨画风格、水彩风格、赛博朋克风格、日漫风格…
基于LoRA模型生成 8 张图片组成连贯故事，故事内容可自定义；基于8图故事，评估LoRA风格的美感度及连贯性

基础知识：

提示词：

主体描述，细节描述，修饰词，艺术风格，艺术家
【promts】Beautiful and cute girl, smiling, 16 years old, denim jacket, gradient background, soft colors, soft lighting, cinematic edge lighting, light and dark contrast, anime, super detail, 8k
【负向prompts】(lowres, low quality, worst quality:1.2), (text:1.2), deformed, black and white,disfigured, low contrast, cropped, missing fingers

Lora:

Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank Adaptation”，即低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。

ComfyUI:

ComfyUI 是一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能，用户可以轻松地进行模型微调、数据预处理、图像生成等任务，从而提高工作效率和生成效果。

参考图控制:

ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型（如Stable Diffusion模型）上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程，而ControlNet的作用在于引入额外的控制信号，使得用户能够更具体地指导图像生成的各个方面（如姿势关键点、分割图、深度图、颜色等）。

速通BaseLine:

开通阿里云PAI-DSW试用

报名赛事(点击跳转)

在魔搭社区创建PAI实例（点击跳转）

运行BaseLine

下载Baseline:
在终端中运行

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

安装 Data-Juicer 和 DiffSynth-Studio
Data-Juicer：数据处理和转换工具，旨在简化数据的提取、转换和加载过程
DiffSynth-Studio：高效微调训练大模型工具

!pip install simple-aesthetics-predictor

!pip install -v -e data-juicer

!pip uninstall pytorch-lightning -y

!pip install peft lightning pandas torchvision

!pip install -e DiffSynth-Studio

重启Kernel.
3. 调整prompt，设置想要的图片风格.
4. 微调结果上传魔搭（点击跳转）