1.文生图基本介绍
文生图(Text-to-Image Generation)是一种通过文本生成图像的技术,主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。
2.任务:跑通baseline
第一步-搭建所需代码环境
step0-开通阿里云免费pai-dsw试用
https://free.aliyun.com/?productCode=learn
在魔塔社区进行授权 魔塔社区
第二步-报名赛事
step1-报名赛事
https://tianchi.aliyun.com/competition/entrance/532254 可图Kolors-LoRA风格故事挑战赛
第三步——在魔搭社区创建PAI实例
step2-在魔塔社区创建实例
https://www.modelscope.cn/my/mynotebook/authorization
创建完以后会自动返回并启动
进入实例以后,我们需要打开终端Terminal下载basline
git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git
之后打开文件夹,打开baseline
安装环境,然后重启kernel
安装 Data-Juicer 和 DiffSynth-Studio
Data-Juicer:数据处理和转换工具,旨在简化数据的提取、转换和加载过程
DiffSynth-Studio:高效微调训练大模型工具
注意,此步较为重要,笔者由于这步忘记重启导致第一遍跑baseline失败
接着调整prompt,设置你想要的图片风格,依次修改8张图片的描述(可选)
正向描述词:你想要生成的图片应该包含的内容
反向提示词:你不希望生成的图片的内容
最后依次运行剩余代码,如有出错请回顾上述步骤检查问题。
成功运行最终获得图片
这是我的一张图片
step3-结果上传魔塔
https://www.modelscope.cn/models/create
创建terminal,粘贴如下命令,回车执行
mkdir /mnt/workspace/kolors/output & cd
cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch\=0-step\=500.ckpt /mnt/workspace/kolors/output/
cp /mnt/workspace/kolors/1.jpg /mnt/workspace/kolors/output/
双击进入output文件夹,分别下载两个文件到本地
上传成功后记得关闭pai实例,否则会消耗使用额度。