Datawhale X 魔搭 AI夏令营---AIGC Task1


Datawhale X 魔搭 AI夏令营第四期-AIGC文生图方向

Datawhale AI 夏令营(第四期)官网

Task1:魔搭-从零入门AI生图原理&实践


0.0 一些link

Task1打卡链接:
电脑端打开 https://linklearner.com/activity/14/10/24
参考笔记:
http://t.csdnimg.cn/8Dvdm
https://juejin.cn/post/7401033107807879202?share_token=573d1b10-6e53-4a48-96f1-f88365b49fca
学习手册:
https://datawhaler.feishu.cn/wiki/UM7awcAuQicI4ukd2qtccT51nug
Q&A:
https://datawhaler.feishu.cn/wiki/K6b1woVtlizjV0klBBgc6ZJUnie
https://v00u9dpku63.feishu.cn/docx/CmVddNV0eoK6nCxjbmScrmTBn7d
赛事官网:
https://modelscope.cn/brand/view/Kolors?branch=0&tree=0
https://tianchi.aliyun.com/s/ce4dc8bf800db1e58d51263ff357d28f

0.1 任务内容

在这里插入图片描述

1.1 了解 可图Kolors-LoRA风格故事挑战赛

赛事链接: https://tianchi.aliyun.com/s/ce4dc8bf800db1e58d51263ff357d28f

比赛内容:

  1. 参赛者需在可图Kolors 模型的基础上训练LoRA 模型,生成无限风格,如水墨画风格、水彩风格、赛博朋克风格、日漫风格…
  2. 基于LoRA模型生成 8 张图片组成连贯故事,故事内容可自定义;基于8图故事,评估LoRA风格的美感度及连贯性
    样例:偶像少女养成日记

1.2 学习 文生图基础知识

文生图(Text-to-Image Generation)是一种通过文本生成图像的技术,其发展历程可以追溯到早期的计算机视觉和自然语言处理研究。

参考:https://www.yuque.com/login?goto=https%3A%2F%2Fwww.yuque.com%2Foffice%2Fyuque%2F0%2F2024%2Fpptx%2F1169882%2F1720431794935-a1a33ec5-e784-4b6e-9664-8f459e2c7413.pptx%3Ffrom%3Dhttps%253A%252F%252Fwww.yuque.com%252F2ai%252Fmodel%252Fgutsk9ezeymuebq9

1.2.1 发展阶段:
在这里插入图片描述

  1. 早期探索(20世纪60年代-20世纪90年代)
    文生图的概念最早出现于计算机视觉和图像处理的早期研究中。
    早期的图像生成技术主要依赖于规则和模板匹配,通过预定义的规则将文本转换为简单的图形。
    然而,由于计算能力和算法的限制,这一阶段的技术能力非常有限,生成的图像质量较低,应用场景也非常有限。
  2. 基于统计模型的方法(2000年代)
    进入2000年代,随着统计模型和机器学习技术的发展,文生图技术开始得到更多关注。
    研究者们开始利用概率图模型和统计语言模型来生成图像。尽管这一阶段的技术在生成图像的多样性和质量上有了一定提升,但由于模型的复杂性和计算资源的限制,生成的图像仍然较为粗糙,不够逼真。
  3. 深度学习的崛起(2010年代)
    2010年代是文生图技术发展的一个重要转折点。随着深度学习,尤其是卷积神经网络(CNN)和生成对抗网络(GAN)的发展,文生图技术取得了突破性进展。2014年,Goodfellow等人提出的GAN模型通过生成器和判别器的对抗训练,极大地提升了图像生成的质量。随后,各类变种GAN模型被提出,如DCGAN、Pix2Pix等,使得文生图技术在生成逼真图像方面达到了前所未有的高度。
  4. 大规模预训练模型(2020年代)
    进入2020年代,大规模预训练模型如OpenAI的CLIP、DALL-E以及Stable Diffusion等的出现,标志着文生图技术进入了一个新的时代。
    CLIP通过大规模的文本和图像配对数据训练,能够理解和生成高度一致的文本和图像;DALL-E和Stable Diffusion进一步提升了生成图像的创意和细节表现能力,使得通过简单的文本描述生成高质量、复杂图像成为可能。
    这些技术的应用范围从艺术创作、广告设计到辅助医疗诊断,展现了广泛的商业价值和社会影响力。
    1.2.2 基本框架:
    在这里插入图片描述
    文生图主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。

提示词
提示词很重要,一般写法:主体描述,细节描述,修饰词,艺术风格,艺术家
Lora
Stable Diffusion中的Lora(LoRA)模型是一种轻量级的微调方法,它代表了“Low-Rank Adaptation”,即低秩适应。Lora不是指单一的具体模型,而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下,Lora被用来对预训练好的大模型进行针对性优化,以实现对特定主题、风格或任务的精细化控制。
ComfyUI
ComfyUI 是一个工作流工具,主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能,用户可以轻松地进行模型微调、数据预处理、图像生成等任务,从而提高工作效率和生成效果。
在ComfyUI平台的前端页面上,用户可以基于节点/流程图的界面设计并执行AIGC文生图或者文生视频的pipeline。
参考图控制
ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型(如Stable Diffusion模型)上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程,而ControlNet的作用在于引入额外的控制信号,使得用户能够更具体地指导图像生成的各个方面(如姿势关键点、分割图、深度图、颜色等)。

2.1 开通阿里云PAI-DSW试用

链接:https://free.aliyun.com/?productCode=learn

2.1.1 登录阿里云并开通 交互式建模 PAI-DSW 5000CU*H 3个月

PAI-DSW(Data Science Workshop)是为算法开发者量身打造的一站式AI开发平台,集成了JupyterLab、WebIDE、Terminal多种云端开发环境,提供代码编写、调试及运行的沉浸式体验。提供丰富的异构计算资源,预置多种开源框架的镜像,实现开箱即用的高效开发模式。

在这里插入图片描述
在这里插入图片描述
2.1.2 登录魔搭社区进行授权

链接:https://www.modelscope.cn/my/mynotebook/authorization
在这里插入图片描述
在这里插入图片描述

2.2 报名赛事

赛事链接:https://tianchi.aliyun.com/competition/entrance/532254

2.2.1 报名赛事
在这里插入图片描述
2.2.2 创建一个队伍
hongjiTC
团队ID: 1185547

2.3 在魔搭社区创建并打开PAI实例

链接:https://www.modelscope.cn/my/mynotebook/authorization

P.S. 启动实例需要等待一小会儿~

在这里插入图片描述
在这里插入图片描述

3.1 一站式Baseline准备

3.1.1 下载并打开baseline文件(大约需要2分钟)

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

在这里插入图片描述
在这里插入图片描述

“.ipynb” 文件是使用 Jupyter Notebook 来编写Python程序时的文件。

在这里插入图片描述
3.1.2 一键安装依赖包后重启kernel

pip安装包大约需要10分钟~
Data-Juicer:数据处理和转换工具,旨在简化数据的提取、转换和加载过程
DiffSynth-Studio:高效微调训练大模型工具

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.1.3 kernel重启后,继续一键运行baseline至“加载模型”

代码块按照功能主要分成这几类

  1. 使用Data-Juicer处理数据,整理训练数据文件
  2. 使用DiffSynth-Studio在基础模型上,使用前面整理好的数据文件进行训练微调
  3. 加载训练微调后的模型

在这里插入图片描述
下载数据集:
在这里插入图片描述
保存数据集中的图片及元数据:
在这里插入图片描述
使用 data-juicer 处理数据:
在这里插入图片描述
保存处理好的数据:
在这里插入图片描述
下载模型:
在这里插入图片描述

查看训练脚本的输入参数:
在这里插入图片描述

开始训练:

提示:
在训练命令中填入 --modelscope_model_id xxxxx 以及 --modelscope_access_token xxxxx 后,训练程序会在结束时自动上传模型到 ModelScope
部分参数可根据实际需求调整,例如 lora_rank 可以控制 LoRA 模型的参数量
在这里插入图片描述

加载模型:

模型加载完毕后,修改提示词,向下进行3.2的内容即可生成自己的AIGC结果
在这里插入图片描述

3.2 调整prompt,依次修改图片描述并生成AIGC结果

my prompt:

    prompt="二次元,未来感,一个红色的、身体是半机械半人类的机器人,站在繁华城市的十字路口,行人人山人海,他孤独地望着天空中穿梭的各种飞行器,手中捧着一簇蓝色玫瑰花",
    negative_prompt="丑陋、色情、变形、嘈杂、模糊、低对比度",

在这里插入图片描述

    prompt="水墨画,一个红色的、身体是半机械半人类的机器人,背影,坐在一片竹林中弹钢琴,四周被潜伏的武装无人机包围了,身上背着一把弓,钢琴旁边靠着一把武士刀",
    negative_prompt="丑陋、色情、变形、嘈杂、模糊、低对比度",

在这里插入图片描述

    prompt="卡通动画,迪士尼画风,一个红色的、身体是半机械半人类的机器人,在蓝色的大海中潜水,他身边围绕着各种美丽的珊瑚,他脚上的螺旋桨冒着气泡,身边还跟着几只可爱的小丑鱼,他的脸上露出了开心的笑容",
    negative_prompt="丑陋、色情、变形、嘈杂、模糊、低对比度",

在这里插入图片描述

    prompt="二次元,宫崎骏动画感,一个红色的、身体是半机械半人类的机器人,在一个天然的温泉池中泡澡,水面上漂浮着各种机器人小玩具,他闭上眼睛,脸上露出十分舒服的表情,水边还有几只水豚正在休息",
    negative_prompt="丑陋、色情、变形、嘈杂、模糊、低对比度",

在这里插入图片描述

4.1 结果上传魔搭

链接:https://www.modelscope.cn/models/create

4.1.1 创建terminal移动结果文件
在这里插入图片描述

4.1.2 双击进入output文件夹,下载两个文件到本地
在这里插入图片描述
4.1.3 上传模型与结果

链接
https://www.modelscope.cn/models/create?template=text-to-image-lora

在这里插入图片描述

模型分分享
https://www.modelscope.cn/models/hongjiModel/hongji-LoRA

4.1.4 去创空间,欣赏结果

链接
https://www.modelscope.cn/studios
关键词搜索“hongji”~

在这里插入图片描述

4.2 最后记得关闭PAI实例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值