Datawhale X 魔搭 AI夏令营---AIGC Task1

hongjiyyall

已于 2024-08-16 19:25:06 修改

阅读量787

点赞数 13

文章标签： aigc

于 2024-08-11 21:52:06 首次发布

本文链接：https://blog.csdn.net/tenghe5926/article/details/141105626

版权

Datawhale X 魔搭 AI夏令营第四期-AIGC文生图方向

Datawhale AI 夏令营（第四期）官网

Task1：魔搭-从零入门AI生图原理&实践

0.0 一些link

⭐Task1打卡链接:
电脑端打开 https://linklearner.com/activity/14/10/24
参考笔记：
http://t.csdnimg.cn/8Dvdm
https://juejin.cn/post/7401033107807879202?share_token=573d1b10-6e53-4a48-96f1-f88365b49fca
⭐学习手册：
https://datawhaler.feishu.cn/wiki/UM7awcAuQicI4ukd2qtccT51nug
Q&A：
https://datawhaler.feishu.cn/wiki/K6b1woVtlizjV0klBBgc6ZJUnie
https://v00u9dpku63.feishu.cn/docx/CmVddNV0eoK6nCxjbmScrmTBn7d
赛事官网：
https://modelscope.cn/brand/view/Kolors?branch=0&tree=0
https://tianchi.aliyun.com/s/ce4dc8bf800db1e58d51263ff357d28f

0.1 任务内容

在这里插入图片描述

1.1 了解可图Kolors-LoRA风格故事挑战赛

赛事链接： https://tianchi.aliyun.com/s/ce4dc8bf800db1e58d51263ff357d28f

比赛内容：

参赛者需在可图Kolors 模型的基础上训练LoRA 模型，生成无限风格，如水墨画风格、水彩风格、赛博朋克风格、日漫风格…
基于LoRA模型生成 8 张图片组成连贯故事，故事内容可自定义；基于8图故事，评估LoRA风格的美感度及连贯性
样例：偶像少女养成日记

1.2 学习文生图基础知识

文生图（Text-to-Image Generation）是一种通过文本生成图像的技术，其发展历程可以追溯到早期的计算机视觉和自然语言处理研究。

参考：https://www.yuque.com/login?goto=https%3A%2F%2Fwww.yuque.com%2Foffice%2Fyuque%2F0%2F2024%2Fpptx%2F1169882%2F1720431794935-a1a33ec5-e784-4b6e-9664-8f459e2c7413.pptx%3Ffrom%3Dhttps%253A%252F%252Fwww.yuque.com%252F2ai%252Fmodel%252Fgutsk9ezeymuebq9

1.2.1 发展阶段：
在这里插入图片描述

早期探索（20世纪60年代-20世纪90年代）
文生图的概念最早出现于计算机视觉和图像处理的早期研究中。
早期的图像生成技术主要依赖于规则和模板匹配，通过预定义的规则将文本转换为简单的图形。
然而，由于计算能力和算法的限制，这一阶段的技术能力非常有限，生成的图像质量较低，应用场景也非常有限。
基于统计模型的方法（2000年代）
进入2000年代，随着统计模型和机器学习技术的发展，文生图技术开始得到更多关注。
研究者们开始利用概率图模型和统计语言模型来生成图像。尽管这一阶段的技术在生成图像的多样性和质量上有了一定提升，但由于模型的复杂性和计算资源的限制，生成的图像仍然较为粗糙，不够逼真。
深度学习的崛起（2010年代）
2010年代是文生图技术发展的一个重要转折点。随着深度学习，尤其是卷积神经网络（CNN）和生成对抗网络（GAN）的发展，文生图技术取得了突破性进展。2014年，Goodfellow等人提出的GAN模型通过生成器和判别器的对抗训练，极大地提升了图像生成的质量。随后，各类变种GAN模型被提出，如DCGAN、Pix2Pix等，使得文生图技术在生成逼真图像方面达到了前所未有的高度。
大规模预训练模型（2020年代）
进入2020年代，大规模预训练模型如OpenAI的CLIP、DALL-E以及Stable Diffusion等的出现，标志着文生图技术进入了一个新的时代。
CLIP通过大规模的文本和图像配对数据训练，能够理解和生成高度一致的文本和图像；DALL-E和Stable Diffusion进一步提升了生成图像的创意和细节表现能力，使得通过简单的文本描述生成高质量、复杂图像成为可能。
这些技术的应用范围从艺术创作、广告设计到辅助医疗诊断，展现了广泛的商业价值和社会影响力。
1.2.2 基本框架：

文生图主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。

提示词
提示词很重要，一般写法：主体描述，细节描述，修饰词，艺术风格，艺术家
Lora
Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank Adaptation”，即低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。
ComfyUI
ComfyUI 是一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能，用户可以轻松地进行模型微调、数据预处理、图像生成等任务，从而提高工作效率和生成效果。
在ComfyUI平台的前端页面上，用户可以基于节点/流程图的界面设计并执行AIGC文生图或者文生视频的pipeline。
参考图控制
ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型（如Stable Diffusion模型）上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程，而ControlNet的作用在于引入额外的控制信号，使得用户能够更具体地指导图像生成的各个方面（如姿势关键点、分割图、深度图、颜色等）。

2.1 开通阿里云PAI-DSW试用

链接：https://free.aliyun.com/?productCode=learn

2.1.1 登录阿里云并开通交互式建模 PAI-DSW 5000CU*H 3个月

PAI-DSW（Data Science Workshop）是为算法开发者量身打造的一站式AI开发平台，集成了JupyterLab、WebIDE、Terminal多种云端开发环境，提供代码编写、调试及运行的沉浸式体验。提供丰富的异构计算资源，预置多种开源框架的镜像，实现开箱即用的高效开发模式。

在这里插入图片描述

2.1.2 登录魔搭社区进行授权

链接：https://www.modelscope.cn/my/mynotebook/authorization

2.2 报名赛事

赛事链接：https://tianchi.aliyun.com/competition/entrance/532254

2.2.1 报名赛事
在这里插入图片描述
2.2.2 创建一个队伍
hongjiTC
团队ID: 1185547

2.3 在魔搭社区创建并打开PAI实例

链接：https://www.modelscope.cn/my/mynotebook/authorization

P.S. 启动实例需要等待一小会儿~

在这里插入图片描述

3.1 一站式Baseline准备

3.1.1 下载并打开baseline文件（大约需要2分钟）

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

在这里插入图片描述

“.ipynb” 文件是使用 Jupyter Notebook 来编写Python程序时的文件。

在这里插入图片描述
3.1.2 一键安装依赖包后重启kernel

pip安装包大约需要10分钟~
Data-Juicer：数据处理和转换工具，旨在简化数据的提取、转换和加载过程
DiffSynth-Studio：高效微调训练大模型工具

在这里插入图片描述

3.1.3 kernel重启后，继续一键运行baseline至“加载模型”

代码块按照功能主要分成这几类

使用Data-Juicer处理数据，整理训练数据文件
使用DiffSynth-Studio在基础模型上，使用前面整理好的数据文件进行训练微调
加载训练微调后的模型

在这里插入图片描述
下载数据集：

保存数据集中的图片及元数据：

使用 data-juicer 处理数据：

保存处理好的数据：

下载模型：

查看训练脚本的输入参数：
在这里插入图片描述

开始训练：

提示：
在训练命令中填入 --modelscope_model_id xxxxx 以及 --modelscope_access_token xxxxx 后，训练程序会在结束时自动上传模型到 ModelScope
部分参数可根据实际需求调整，例如 lora_rank 可以控制 LoRA 模型的参数量

加载模型:

模型加载完毕后，修改提示词，向下进行3.2的内容即可生成自己的AIGC结果

3.2 调整prompt，依次修改图片描述并生成AIGC结果

my prompt:

    prompt="二次元，未来感，一个红色的、身体是半机械半人类的机器人，站在繁华城市的十字路口，行人人山人海，他孤独地望着天空中穿梭的各种飞行器，手中捧着一簇蓝色玫瑰花",
    negative_prompt="丑陋、色情、变形、嘈杂、模糊、低对比度",

在这里插入图片描述

    prompt="水墨画，一个红色的、身体是半机械半人类的机器人，背影，坐在一片竹林中弹钢琴，四周被潜伏的武装无人机包围了，身上背着一把弓，钢琴旁边靠着一把武士刀",
    negative_prompt="丑陋、色情、变形、嘈杂、模糊、低对比度",

在这里插入图片描述

    prompt="卡通动画，迪士尼画风，一个红色的、身体是半机械半人类的机器人，在蓝色的大海中潜水，他身边围绕着各种美丽的珊瑚，他脚上的螺旋桨冒着气泡，身边还跟着几只可爱的小丑鱼，他的脸上露出了开心的笑容",
    negative_prompt="丑陋、色情、变形、嘈杂、模糊、低对比度",

在这里插入图片描述

    prompt="二次元，宫崎骏动画感，一个红色的、身体是半机械半人类的机器人，在一个天然的温泉池中泡澡，水面上漂浮着各种机器人小玩具，他闭上眼睛，脸上露出十分舒服的表情，水边还有几只水豚正在休息",
    negative_prompt="丑陋、色情、变形、嘈杂、模糊、低对比度",

在这里插入图片描述

4.1 结果上传魔搭

链接：https://www.modelscope.cn/models/create

4.1.1 创建terminal移动结果文件
在这里插入图片描述

4.1.2 双击进入output文件夹，下载两个文件到本地
在这里插入图片描述
4.1.3 上传模型与结果

链接
https://www.modelscope.cn/models/create?template=text-to-image-lora

在这里插入图片描述

模型分分享
https://www.modelscope.cn/models/hongjiModel/hongji-LoRA

4.1.4 去创空间，欣赏结果

链接
https://www.modelscope.cn/studios
关键词搜索“hongji”~

在这里插入图片描述

4.2 最后记得关闭PAI实例

hongjiyyall

关注

13
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Datawhale X 魔搭 AI夏令营---AIGC Task1

目录

Datawhale X 魔搭 AI夏令营第四期-AIGC文生图方向

Task1：魔搭-从零入门AI生图原理&实践

0.0 一些link

0.1 任务内容

1.1 了解 可图Kolors-LoRA风格故事挑战赛

1.2 学习 文生图基础知识

2.1 开通阿里云PAI-DSW试用

2.2 报名赛事

2.3 在魔搭社区创建并打开PAI实例

3.1 一站式Baseline准备

3.2 调整prompt，依次修改图片描述并生成AIGC结果

4.1 结果上传魔搭

4.2 最后记得关闭PAI实例

1.1 了解可图Kolors-LoRA风格故事挑战赛

1.2 学习文生图基础知识