Datawhale X 魔搭 AI夏令营–AIGC Task1

Datawhale X 魔搭 AI夏令营–AIGC Task1

官方参考

​ 这是Datawhale 2024 年 AI 夏令营第四期的学习活动(“AIGC”方向),目标是从通过代码实现AI文生图逐渐进阶,偏重图像工作流、微调、图像优化等思路,最后简单了解AIGC应用方向、数字人技术。

赛事介绍

赛事任务:

  1. 参赛者需在可图Kolors 模型的基础上训练LoRA 模型,生成无限风格,如水墨画风格、水彩风格等。
  2. 基于LoRA模型生成 8 张图片组成连贯故事,故事内容可自定义;基于8图故事,评估LoRA风格的美感度及连贯性

评分标准:本次比赛通过客观评分判断选手提交作品的有效性,但最终评分以主观评分为准。

  1. 主观评分:由评委对参赛作品进行投票,评审标准可以从技术运用(40%)、组图风格连贯性(30%)、整体视觉效果(30%)几方面进行评判投票。
  2. 客观评分:美学分数仅作评价提交是否有效的标准,其中美学分数小于6(阈值可能根据比赛的实际情况调整,解释权归主办方所有)的提交被视为无效提交,无法参与主观评分。

此外,会核实选手上传的模型文件,选手需提交训练的LoRA 模型文件、LORA 模型的介绍、以及使用该模型生成的至少8张图片和对应 prompt,以便我们能够复现生成效果,对于生成效果明显无法复现的,取消获奖资格。

文生图基础知识介绍

文生图主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。

download_image

  • 提示词prompts

    • 一般写法:主体描述,细节描述,修饰词,艺术风格,艺术家
    • 负向prompts如“丑陋、变形、嘈杂、模糊、低对比度”
  • Lora:Low-Rank Adaptation

    • LoRA模型是一种轻量级的微调方法,代表低秩适应。
    • Lora不是指单一的具体模型,而是指一类通过特定微调技术应用于基础模型的扩展应用。
    • 在Stable Diffusion这一文本到图像合成模型的框架下,Lora被用来对预训练好的大模型进行针对性优化,以实现对特定主题、风格或任务的精细化控制。
  • ComfyUI

    • 这是一个工作流工具,主要用于简化和优化 AI 模型的配置和训练过程。
    • 通过直观的界面和集成的功能,用户可以轻松地进行模型微调、数据预处理、图像生成等任务,从而提高工作效率和生成效果
  • 参考图控制

    • ControlNet是一种用于精确控制图像生成过程的技术组件,是一个附加到预训练的扩散模型(如Stable Diffusion模型)上的可训练神经网络模块。
    • 扩散模型通常用于从随机噪声逐渐生成图像的过程,而ControlNet的作用在于引入额外的控制信号,使得用户能够更具体地指导图像生成的各个方面(如姿势关键点、分割图、深度图、颜色等)。

    具体参考图控制类型参见(https://datawhaler.feishu.cn/wiki/CMYkwKow0ihxOikg1G9cd9Zhnng#SGhSd73NIooluxx7j7UcIz7On0g)

实践操作
step0:开通阿里云PAI-DSW试用

前往阿里云

image-20240810172309170

image-20240810172401833

前往魔搭社区授权

image-20240810172834183

若阿里云试用失败或到期,可以使用魔搭免费GPU额度

image-20240810173832381

step1:报名赛事

可图Kolors-LoRA风格故事挑战赛

image-20240810173152184

step2:创建PAI实例

魔搭社区

image-20240810204358717

image-20240810204756433

image-20240810204717101

image-20240810205127424

step3:运行
  1. 下载baseline

    git lfs install
    git clone https://www.modelscope.cn/datasets/maochase/kolors.git
    
  2. 进入脚本

    image-20240810205532656

  3. 安装环境,然后重启kernel

    • Data-Juicer:数据处理和转换工具,旨在简化数据的提取、转换和加载过程
    • DiffSynth-Studio:高效微调训练大模型工具

    image-20240810205631644

    image-20240810205835545

  4. 调整prompt

    image-20240810210734322

  5. 点击代码框左上角执行按钮(restart kernal and run all cells),最终获得图片(耗时较久),代码块功能:

    1. 使用Data-Juicer处理数据,整理训练数据文件
    2. 使用DiffSynth-Studio在基础模型上,使用前面整理好的数据文件进行训练微调
    3. 加载训练微调后的模型
    4. 使用微调后的模型,生成用户指定的prompt提示词的图片

注:模型训练完成后,若因error重启kernal,不需要全部重新运行,将涉及部分变量的代码块运行即可,耗时最长的训练部分不需要再次运行

step4:保存、上传
  1. 打开终端,移动结果

    mkdir /mnt/workspace/kolors/output & cd 
    cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch\=0-step\=500.ckpt /mnt/workspace/kolors/output/
    cp /mnt/workspace/kolors/*.jpg /mnt/workspace/kolors/output/
    

    使用通配符*来匹配所有*.jpg

  2. 下载结果

    image-20240810213421703

  3. 上传结果,关闭PAI实例

最终结果
第一组
  1. 二次元,日系动漫,一个金色长发碧绿瞳孔小女孩,在家中沙发上坐着,双手托腮,盯着电视机,全身,浅蓝色连衣裙

  2. 二次元,日系动漫,演唱会的观众席,人山人海,一个金色长发碧绿瞳孔小女孩穿着浅蓝色吊带漏肩连衣裙坐在演唱会的观众席,舞台上衣着华丽的歌星们在唱歌

  3. 二次元,一个金色长发碧绿瞳孔小女孩穿着浅蓝色吊带漏肩连衣裙坐在演唱会的观众席,露出憧憬的神情

  4. 二次元,一个金色长发碧绿瞳孔小女孩穿着浅蓝色吊带漏肩连衣裙,对着流星许愿,闭着眼睛,十指交叉,侧面

  5. 二次元,一个金色长发碧绿瞳孔小女孩穿着浅蓝色吊带漏肩连衣裙,在练习室练习唱歌

  6. 二次元,一个金色长发碧绿瞳孔小女孩,穿着浅蓝色吊带漏肩连衣裙,在练习室练习唱歌,手持话筒

  7. 二次元,一个金色长发碧绿瞳孔小女孩,穿着浅蓝色连衣裙,试衣间里两手交叉,心情忐忑

  8. 二次元,一个金色长发碧绿瞳孔小女孩,穿着浅蓝色礼服,连衣裙,在台上唱歌

  9. 负prompt:丑陋、变形、嘈杂、模糊、低对比度

第二组
  1. 彩铅作画,中国小女孩,羊角辫,低头看狸花猫幼崽
  2. 彩铅作画,中国小女孩,羊角辫,在前面奔跑,狸花猫幼崽在后面追逐
  3. 彩铅作画,晚上,漆黑的夜幕,亭子下,中国小女孩,中等长度头发,坐在地上,和狸花猫一起抬头,几颗星星,若隐若现,朦胧
  4. 彩铅作画,中国女生,12岁,单马尾,上学路上,穿着校服,背着书包,在前面走,狸花猫,在后面,坐着,看着女生
  5. 彩铅作画,教室里,中国女生,15岁,单马尾,趴在桌子上,睡觉,孤独,思念
  6. 彩铅作画,房门前,狸花猫,坐着,望着远方,孤独,思念,背面
  7. 彩铅作画,中国女生,18岁,长发,站在门口,右手扶门,左手拿着帽子,远望,狸花猫,苍老,寿命将尽,毛发干枯,在路上走
  8. 彩铅作画,中国女生,18岁,长发,站在门口,远望,背对,孤独
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

if 1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值