纯小白第一次参加Datawhale AI夏令营,记录一下Task1的学习过程
学习内容提要:从文生图实现方案逐渐进阶,教程偏重图像工作流、微调、图像优化等思路,AIGC应用方向、数字人技术(选学)
首先了解赛题
赛题解读
可图Kolors-LoRA风格故事挑战赛
-
参赛者需在可图Kolors 模型的基础上训练LoRA 模型,生成无限风格,如水墨画风格、水彩风格、赛博朋克风格、日漫风格......
-
基于LoRA模型生成 8 张图片组成连贯故事,故事内容可自定义;基于8图故事,评估LoRA风格的美感度及连贯性 样例:偶像少女养成日记
Task1
1.学习文生图相关原理
文生图主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。
提示词
提示词很重要,一般写法:主体描述,细节描述,修饰词,艺术风格,艺术家
Lora
Stable Diffusion中的Lora(LoRA)模型是一种轻量级的微调方法,它代表了“Low-Rank Adaptation”,即低秩适应。Lora不是指单一的具体模型,而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下,Lora被用来对预训练好的大模型进行针对性优化,以实现对特定主题、风格或任务的精细化控制。
ComfyUI
ComfyUI 是一个工作流工具,主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能,用户可以轻松地进行模型微调、数据预处理、图像生成等任务,从而提高工作效率和生成效果。
参考图控制
ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型(如Stable Diffusion模型)上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程,而ControlNet的作用在于引入额外的控制信号,使得用户能够更具体地指导图像生成的各个方面(如姿势关键点、分割图、深度图、颜色等)。
2.熟悉魔塔相关文生图工具的使用
步骤一:开通阿里云PAI-DSW试用
-
开通免费试用
-
在魔搭社区进行授权
步骤二:报名赛事
步骤三:在魔塔社区创建API实例
步骤四:跑通Baseline
1.下载baseline文件
2.进入文件夹,打开baseline文件
3.安装环境,然后重启kernel
4.调整prompt,设置你想要的图片风格,依次修改8张图片的描述
5.依次顺序运行剩余的代码块,点击代码框左上角执行按钮,最终获得图片
3.完成可图赛事体验
学完的感受和收获、困惑
学完后大致了解了AI生图的流程及原理,知道了跑通baseline的流程,但是对其中的代码不是很理解,只是根据教程点击运行,并不明白改代码为何这么写。
Task1较为简单,只需根据教程跑通baseline,并且他不需要在本地安装环境,非常适合小白(比如我)上手。
跑完baseline,看了下代码,收获还是很大的,虽然有些地方还搞不明白是为什么。
不过这份代码运行时间有点长,应该还有提高效率的空间。
接下来的学习方向
1.深入了解AI生图的原理
2.争取弄懂算法原理,并改进算法,使之更高效