Datawhale AI夏令营第四期 魔搭-AIGC方向 task01 从零入门AI生图原理&实践

从零入门AI生图原理&实践

————可图Kolors-LoRA风格故事挑战赛

Datawhale

目录

从零入门AI生图原理&实践

一、基础知识

1、文生图的历史

2、文生图基础知识介绍

二、小白零基础 30 分钟 速通指南

Step0:开通阿里云PAI-DSW试用

Step1:报名赛事!(点击即可跳转)

Step2:在魔搭社区创建PAI实例!(点击即可跳转)

Step3:30 分钟体验一站式 baseline!

Step4:微调结果上传魔搭(点击即可跳转)

三、关闭PAI实例!!!!(点击即可跳转)


一、基础知识

1、文生图的历史

文生图(Text-to-Image Generation)是一种通过文本生成图像的技术,其发展历程可以追溯到早期的计算机视觉和自然语言处理研究。这一技术的历史可以分为几个关键阶段:

发展阶段

发展介绍

早期探索

(20世纪60年代-20世纪90年代)

文生图的概念最早出现于计算机视觉和图像处理的早期研究中。

早期的图像生成技术主要依赖于规则和模板匹配,通过预定义的规则将文本转换为简单的图形。

然而,由于计算能力和算法的限制,这一阶段的技术能力非常有限,生成的图像质量较低,应用场景也非常有限。

基于统计模型的方法

(2000年代)

进入2000年代,随着统计模型和机器学习技术的发展,文生图技术开始得到更多关注。

研究者们开始利用概率图模型和统计语言模型来生成图像。尽管这一阶段的技术在生成图像的多样性和质量上有了一定提升,但由于模型的复杂性和计算资源的限制,生成的图像仍然较为粗糙,不够逼真。

深度学习的崛起

(2010年代)

2010年代是文生图技术发展的一个重要转折点。随着深度学习,尤其是卷积神经网络(CNN)和生成对抗网络(GAN)的发展,文生图技术取得了突破性进展。2014年,Goodfellow等人提出的GAN模型通过生成器和判别器的对抗训练,极大地提升了图像生成的质量。随后,各类变种GAN模型被提出,如DCGAN、Pix2Pix等,使得文生图技术在生成逼真图像方面达到了前所未有的高度。

大规模预训练模型

(2020年代)

进入2020年代,大规模预训练模型如OpenAI的CLIP、DALL-E以及Stable Diffusion等的出现,标志着文生图技术进入了一个新的时代。

CLIP通过大规模的文本和图像配对数据训练,能够理解和生成高度一致的文本和图像;DALL-E和Stable Diffusion进一步提升了生成图像的创意和细节表现能力,使得通过简单的文本描述生成高质量、复杂图像成为可能。

这些技术的应用范围从艺术创作、广告设计到辅助医疗诊断,展现了广泛的商业价值和社会影响力。

2、文生图基础知识介绍

文生图主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。

提示词:提示词很重要,一般写法:主体描述,细节描述,修饰词,艺术风格,艺术家

Lora:Stable Diffusion中的Lora(LoRA)模型是一种轻量级的微调方法,它代表了“Low-Rank Adaptation”,即低秩适应。Lora不是指单一的具体模型,而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下,Lora被用来对预训练好的大模型进行针对性优化,以实现对特定主题、风格或任务的精细化控制。

ComfyUI:ComfyUI 是一个工作流工具,主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能,用户可以轻松地进行模型微调、数据预处理、图像生成等任务,从而提高工作效率和生成效果。

参考图控制:ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型(如Stable Diffusion模型)上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程,而ControlNet的作用在于引入额外的控制信号,使得用户能够更具体地指导图像生成的各个方面(如姿势关键点、分割图、深度图、颜色等)。

二、小白零基础 30 分钟 速通指南

Step0:开通阿里云PAI-DSW试用

开通免费试用:阿里云免费试用 - 阿里云

在魔搭社区进行授权:https://www.modelscope.cn/my/mynotebook/authorization

Step1:报名赛事!(点击即可跳转)

https://tianchi.aliyun.com/competition/entrance/532254

Step2:在魔搭社区创建PAI实例!(点击即可跳转)

https://www.modelscope.cn/my/mynotebook/authorization

如有问题,可以参考博客第一行的网页链接

环境配置:modelscope:1.17.1-pytorch2.3.0tensorflow2.16.1-gpu-py310-cu121-ubuntu22.04

Step3:30 分钟体验一站式 baseline!

1、下载baseline文件

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

2、进入文件夹,打开baseline文件

4、调整prompt,设置你想要的图片风格,依次修改8张图片的描述

正向描述词:你想要生成的图片应该包含的内容

反向提示词:你不希望生成的图片的内容

5、依次顺序运行剩余的代码块,点击代码块左上角的执行按钮,最终获得图片

下面的代码块按照功能主要分成这几类

  1. 使用Data-Juicer处理数据,整理训练数据文件

  2. 使用DiffSynth-Studio在基础模型上,使用前面整理好的数据文件进行训练微调

  3. 加载训练微调后的模型

  4. 使用微调后的模型,生成用户指定的prompt提示词的图片

不慌不慌,日落西山还有月关;

只要抬头,总能看到光!

Step4:微调结果上传魔搭(点击即可跳转)

链接:https://www.modelscope.cn/models/create

1、移动结果文件:

创建terminal,粘贴如下命令,回车执行

mkdir /mnt/workspace/kolors/output & cd 
cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch\=0-step\=500.ckpt /mnt/workspace/kolors/output/
cp /mnt/workspace/kolors/1.jpg /mnt/workspace/kolors/output/

2、下载结果文件

双击进入output文件夹,分别下载两个文件到本地

3、创建并上传模型所需内容

  点击魔搭链接,创建模型,中文名称建议格式:队伍名称-可图Kolors训练-xxxxxx

4、来到创空间,查看自己的模型是否发布

魔搭社区

三、关闭PAI实例!!!!(点击即可跳转)

链接:https://www.modelscope.cn/my/mynotebook/authorization

运行完成后,别忘了回到魔搭,【关闭】实例,否则会一直消耗你的试用额度!

每小时消耗大概7个试用额度!(总共5000个,有效期三个月)

  • 16
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值