Datawhale AI夏令营第四期魔搭-AIGC方向 task01 从零入门AI生图原理&实践-CSDN博客

2010年代是文生图技术发展的一个重要转折点。随着深度学习，尤其是卷积神经网络（CNN）和生成对抗网络（GAN）的发展，文生图技术取得了突破性进展。2014年，Goodfellow等人提出的GAN模型通过生成器和判别器的对抗训练，极大地提升了图像生成的质量。随后，各类变种GAN模型被提出，如DCGAN、Pix2Pix等，使得文生图技术在生成逼真图像方面达到了前所未有的高度。

大规模预训练模型

（2020年代）

进入2020年代，大规模预训练模型如OpenAI的CLIP、DALL-E以及Stable Diffusion等的出现，标志着文生图技术进入了一个新的时代。

CLIP通过大规模的文本和图像配对数据训练，能够理解和生成高度一致的文本和图像；DALL-E和Stable Diffusion进一步提升了生成图像的创意和细节表现能力，使得通过简单的文本描述生成高质量、复杂图像成为可能。

这些技术的应用范围从艺术创作、广告设计到辅助医疗诊断，展现了广泛的商业价值和社会影响力。

2、文生图基础知识介绍

文生图主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。

提示词：提示词很重要，一般写法：主体描述，细节描述，修饰词，艺术风格，艺术家

Lora：Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank Adaptation”，即低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。

ComfyUI：ComfyUI 是一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能，用户可以轻松地进行模型微调、数据预处理、图像生成等任务，从而提高工作效率和生成效果。

参考图控制：ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型（如Stable Diffusion模型）上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程，而ControlNet的作用在于引入额外的控制信号，使得用户能够更具体地指导图像生成的各个方面（如姿势关键点、分割图、深度图、颜色等）。

环境配置：modelscope:1.17.1-pytorch2.3.0tensorflow2.16.1-gpu-py310-cu121-ubuntu22.04

Step3：30 分钟体验一站式 baseline！

1、下载baseline文件

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

2、进入文件夹，打开baseline文件

4、调整prompt，设置你想要的图片风格，依次修改8张图片的描述

正向描述词：你想要生成的图片应该包含的内容

反向提示词：你不希望生成的图片的内容

5、依次顺序运行剩余的代码块，点击代码块左上角的执行按钮，最终获得图片

下面的代码块按照功能主要分成这几类

使用Data-Juicer处理数据，整理训练数据文件
使用DiffSynth-Studio在基础模型上，使用前面整理好的数据文件进行训练微调
加载训练微调后的模型
使用微调后的模型，生成用户指定的prompt提示词的图片

不慌不慌，日落西山还有月关；

只要抬头，总能看到光！

Step4：微调结果上传魔搭（点击即可跳转）

链接：https://www.modelscope.cn/models/create

1、移动结果文件：

创建terminal，粘贴如下命令，回车执行

mkdir /mnt/workspace/kolors/output & cd 
cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch\=0-step\=500.ckpt /mnt/workspace/kolors/output/
cp /mnt/workspace/kolors/1.jpg /mnt/workspace/kolors/output/

2、下载结果文件

双击进入output文件夹，分别下载两个文件到本地

3、创建并上传模型所需内容

点击魔搭链接，创建模型，中文名称建议格式：队伍名称-可图Kolors训练-xxxxxx

4、来到创空间，查看自己的模型是否发布

魔搭社区

三、关闭PAI实例！！！！（点击即可跳转）

链接：https://www.modelscope.cn/my/mynotebook/authorization

运行完成后，别忘了回到魔搭，【关闭】实例，否则会一直消耗你的试用额度！

每小时消耗大概7个试用额度！（总共5000个，有效期三个月）

Datawhale AI夏令营第四期 魔搭-AIGC方向 task01 从零入门AI生图原理&实践

从零入门AI生图原理&实践

一、基础知识

1、文生图的历史

2、文生图基础知识介绍

二、小白零基础 30 分钟 速通指南

Step0：开通阿里云PAI-DSW试用

Step1：报名赛事！(点击即可跳转)

Step2：在魔搭社区创建PAI实例！（点击即可跳转）

Step3：30 分钟体验一站式 baseline！

Step4：微调结果上传魔搭（点击即可跳转）

三、关闭PAI实例！！！！（点击即可跳转）

Datawhale AI夏令营第四期魔搭-AIGC方向 task01 从零入门AI生图原理&实践

二、小白零基础 30 分钟速通指南