Datawhale AI夏令营第四期 AIGC TASK01-CSDN博客

本文链接：https://blog.csdn.net/Raoulll/article/details/141059567

首先先看最终出图：

赛事解读：可图Kolors-LoRA风格故事挑战赛

参赛者需在可图Kolors 模型的基础上训练LoRA 模型，生成无限风格，如水墨画风格、水彩风格、赛博朋克风格、日漫风格......
基于LoRA模型生成 8 张图片组成连贯故事，故事内容可自定义；基于8图故事，评估LoRA风格的美感度及连贯性 样例：偶像少女养成日记

学习笔记：

1.生成演化模型的发展：

2.文生图基础知识介绍：

文生图主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。

提示词：很重要，一般写法：主体描述，细节描述，修饰词，艺术风格，艺术家

LoRA：Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank Adaptation”，即低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。

ComfyUI：一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能，用户可以轻松地进行模型微调、数据预处理、图像生成等任务，从而提高工作效率和生成效果。

ControlNet：一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型（如Stable Diffusion模型）上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程，而ControlNet的作用在于引入额外的控制信号，使得用户能够更具体地指导图像生成的各个方面（如姿势关键点、分割图、深度图、颜色等）

实践：

1.开通阿里云PAI-DSW获取试用资格：

链接：阿里云免费试用 - 阿里云

注册登陆后选择点击试用→立即试用→显示提交成功即可，可获得5000算力时，有效期为三个月

2.前往魔搭社区授权：

链接：https://www.modelscope.cn/my/mynotebook/authorization

3.创建实例：

稍等片刻后，可以看到如下界面：

4.启动实例

点击上图的“打开”，进入Jupyter Notebbok，进入终端

首先下载baseline文件：

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

打开下载好的baseline文件：

安装 Data-Juicer 和 DiffSynth-Studio，即运行第一个代码块：

Data-Juicer：数据处理和转换工具，旨在简化数据的提取、转换和加载过程

DiffSynth-Studio：高效微调训练大模型工具

调整prompt：设置你想要的图片风格，依次修改8张图片的描述

正向描述词：你想要生成的图片应该包含的内容

反向提示词：你不希望生成的图片的内容

依次顺序运行剩余的代码块，点击代码框左上角执行按钮，最终获得图片（大约需要20分钟）

最后关闭PAI实例即可！

课外知识：

1.我发现有些Promt并没有效果，于是搜索了一下相关知识，链接如下：

AI绘画Stable Diffusion提示词（Prompt）原理详解，扫盲级教程还请收藏！-CSDN博客

根据博客可以看出，可以调整提示词的权重，并且采用英文的提示词效果会更好一点，如{in the middle of the night without the moon：1.2},将没有月亮的午夜权重调至1.2（默认为1），修改后的提示词与出图如下：

prompt="black and white ink style,{in the middle of the night without the moon：1.2}, two samurai wearing hats are far away,{the weak samurai kneels on the ground and has a sword inserted into the dirt next to him：1.2}, The mighty samurai pointed his sword at the weak samurai,  side，vista，masterpiece",
negative_prompt="丑陋、变形、嘈杂、模糊、扭曲的手指、多余的手指、Extra swords",

可以看到像没有月亮，多余的剑等提示词的效果生效地很好。

2.在学习过程中对gan对抗网络很有兴趣，于是稍微了解了一下：

可以将GAN视为伪造者和警察之间的猫捉老鼠游戏。伪造者正在学习制造假钱，警察正在学习如何检测假钱。他们都在学习和提高。伪造者不断学习创造更好的假货，并且警察在检测它们时不断变得更好。最终的结果是，伪造者现在经过不断演变，可以创造出极为真实的金钱！颇有达尔文自然进化的感觉。

以MNIST手写数字数据集为例：