Datawhale 2024年AI夏令营的第四期学习活动聚焦于“AIGC”(人工智能生成内容)的前沿领域,特别安排了“从零入门AI生图原理&实践”这一课程。课程紧密依托于魔搭社区举办的“可图Kolors-LoRA风格故事挑战赛”(https://tianchi.aliyun.com/competition/entrance/532254)
一、文生图基本概念介绍
文生图主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。扩散(Diffusion)模型是能够从潜在变量合成高质量图像的生成模型。扩散模型通过逐渐向图像添加高斯噪声来生成 N 个噪声越来越大的图像链,然后训练模型来预测从一个步骤到下一个步骤添加到图像的噪声。如果步长足够小,就可以确保在序列末尾获得的图像可以通过对噪声进行采样的相同高斯函数来近似——这允许我们通过从相同的分布中采样来生成一幅全新的图像然后将其传递给我们训练过的模型 N 次。
图 1 扩散(Diffusion)过程的图示
二、搭建代码环境
2.1 开通阿里云PAI-DSW试用(https://free.aliyun.com/?productCode=learn)
图 2 开通阿里云试用
图 3 在魔搭社区进行授权
三、在魔搭社区创建PAI实例在魔搭社区创建PAI实例及baseline一站式实现过程
3.1 下载baseline文件
打开终端,复制以下代码,完成下载:
git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git
3.2 进入"kolors"并打开baseline文件
3.3 安装环境并重启kernel
3.4 对prompt进行调整,设置自己想要的图片风格,并修改对8张图片的描述
[ ] torch. manual_seed(0)
image = pipe(
prompt="二次元,日系动漫,一个棕色卷发少年,全身,米色夹克,黑色短裤,少年站在海边,对着夕
阳,面向大海,手搭凉棚眺望远方",
negative prompt="丑陋、变形、嘈杂、模糊、低对比度”,
cfg_scale=4,
num_inference_steps=50, height=1024, width=1024,
)
image.save("1. jpg")
3.5 完成图片描述的编辑后,点击执行按钮并等待数十分钟,可以得到图片
4.1 复制代码到Terminal
mkdir /mnt/workspace/kolors/output & cd
cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch\=0-step\=500.ckpt /mnt/workspace/kolors/output/
cp /mnt/workspace/kolors/1.jpg /mnt/workspace/kolors/output/
4.2 分别保存output文件夹下的两个文件
4.3 创建并上传模型(模型创建 · 魔搭社区 (modelscope.cn))
以上为本次Task1学习内容的笔记。