Datawhale AI夏令营第四期魔搭- AIGC文生图方向 task01笔记

最新推荐文章于 2024-08-16 22:41:55 发布

yizhuo zhang

最新推荐文章于 2024-08-16 22:41:55 发布

阅读量997

点赞数 27

文章标签：人工智能 AIGC 笔记

本文链接：https://blog.csdn.net/qq_51406661/article/details/141090854

版权

Task 1 熟悉操作平台，熟练掌握魔塔以及阿里云资源平台，成功运行baseline

项目背景：

文生图（Text-to-Image Generation）是一种通过文本生成图像的技术，其发展历程可以追溯到早期的计算机视觉和自然语言处理研究。这一技术的历史可以分为几个关键阶段：

早期探索（20世纪50年代至70年代）

基础研究：在计算机视觉和自然语言处理的早期研究中，科学家们开始尝试将文本描述转换为图像。这些早期的尝试通常依赖于简单的规则和模板。

发展阶段（20世纪80年代至90年代）

符号主义方法：这一时期，研究者们尝试使用基于规则的方法，将文本中的名词、形容词等映射到图像的构成元素上。这些方法通常局限于生成非常简单的图像。
基于实例的方法：随着技术的发展，研究者开始尝试利用已有的图像库，根据文本描述检索相似的图像。这种方法虽然较为原始，但为后来的技术发展奠定了基础。

技术突破（21世纪初至2010年代）

生成对抗网络（GANs）：2014年，Ian Goodfellow等人提出了生成对抗网络，这是一种强大的生成模型，能够在没有大量成对数据的情况下，根据文本描述生成图像。
条件生成模型：随着GANs的发展，研究者们开始探索如何将文本条件引入到生成模型中，从而实现更准确的文生图。

当前进展（2020年代）

深度学习与注意力机制：现代文生图技术大量采用了深度学习，尤其是结合了注意力机制的Transformer模型，能够更好地理解文本描述中的细节。
多模态融合：研究者们在文生图模型中实现了文本与图像特征的高效融合，使得生成的图像在内容和风格上更加贴近文本描述。

具体技术流程

文本理解：首先，模型需要理解输入的文本描述，这通常通过NLP技术实现，如词嵌入（word embeddings）和语言模型。
特征提取：模型提取文本中的关键特征，如物体、场景、颜色、风格等信息。
图像生成：根据提取的文本特征，生成模型（如GANs）开始创建图像。这个过程可能涉及多次迭代，以生成高质量的图像。
优化与调整：生成的图像可能需要经过后处理，以优化细节和真实感。

应用领域

艺术创作：艺术家和设计师使用文生图技术进行创意表达。
内容生成：在媒体和娱乐行业，用于快速生成插图、概念艺术等。
辅助设计：在产品设计等领域，帮助设计师快速可视化概念。
教育工具：用于教育领域，帮助学生通过文本描述来理解复杂的概念。

文生图技术的发展不仅展示了人工智能在艺术和创意领域的潜力，也推动了计算机视觉和自然语言处理技术的融合与进步。随着技术的不断完善，未来文生图技术将在更多领域展现其独特的应用价值

工作流程及关键部分简介：

具体的工作流程如下图所示：

提示词（Prompts）在文生图（Text-to-Image Generation）技术中起着至关重要的作用，它们是用户输入的文本描述，用于指导模型生成相应的图像。以下是一些常见的提示词类型和使用提示：

常见提示词类型：

物体描述：直接描述想要生成的物体，例如：
- “一只正在飞翔的鹰”
- “一杯冒着热气的咖啡”
场景描述：描述一个包含多个元素的场景，例如：
- “日落时分的海滩，有海鸥和波浪”
- “繁忙的城市街道，高楼大厦和行人”
风格描述：指定图像的风格或艺术流派，例如：
- “一幅印象派风格的花园画作”
- “一张抽象的艺术作品，色彩丰富”
情感描述：表达某种情感或氛围，例如：
- “孤独的夜晚，月亮下的湖面”
- “欢乐的节日气氛，烟花绽放”
细节描述：强调图像中的特定细节，例如：
- “一只猫的眼睛，特写镜头，毛茸茸的细节”
- “古建筑的雕刻，精细的纹理”

使用提示词的技巧：

明确性：确保提示词清晰、具体，避免模糊不清的描述。
细节丰富：提供足够的细节，帮助模型更好地理解你的需求。
一致性：确保提示词中的元素相互协调，避免冲突。
风格指导：如果需要特定风格，可以在提示词中加入相关艺术家的名字或艺术流派。
情感表达：通过使用情感词汇来传达想要的氛围或情绪。

使用提示词时，可以根据模型的特性和能力进行调整，以获得最佳的图像生成效果。随着技术的发展，模型对复杂和多样化提示词的理解能力也在不断提升。

LoRA的主要特点：

低秩适应：LoRA通过引入低秩矩阵来模拟预训练模型参数的微小变化。这意味着只有一小部分参数需要被调整，从而降低了微调的复杂性。
参数效率：由于LoRA只调整模型的低秩矩阵，因此它需要的额外参数远少于全模型微调，这使得它非常适合在资源受限的环境中工作。
精细化控制：通过LoRA，可以针对特定的主题、风格或任务进行微调，从而在不牺牲模型原有性能的情况下提高其在特定领域的表现。

LoRA在Stable Diffusion中的应用：

风格定制：艺术家或设计师可以使用LoRA来创建具有特定风格或视觉特征的图像，例如，模仿某位艺术家的画风。
主题优化：LoRA可以帮助模型更好地理解和生成特定主题的图像，比如，优化模型以生成更加逼真的动物图像。
任务特定调整：对于某些特定的应用场景，如产品设计中，LoRA可以用来调整模型以更好地满足特定设计需求。

如何实现LoRA：

选择基础模型：首先，选择一个已经预训练好的Stable Diffusion模型。
定义低秩矩阵：在模型的某些层中插入低秩矩阵，这些矩阵将用于模拟参数的变化。
微调过程：使用特定的数据集对低秩矩阵进行微调，这些数据集应反映所需的主题或风格。
集成LoRA：微调完成后，将调整后的低秩矩阵集成回基础模型中，以实现定制化的图像生成。

通过这种方式，LoRA为Stable Diffusion模型提供了一种灵活、高效的定制化手段，使得用户能够在不重新训练整个模型的情况下，实现对图像生成过程的精细控制。这对于提高模型的应用范围和用户体验具有重要意义。

此外还有ComfyUI和参考图控制等

下面我们正式进入本期夏令营的项目吧！

手把手带你速通Task1

第一步：报名参加配套文生图比赛：

比赛项目：可图Kolors-LoRA风格故事挑战赛

参赛链接：可图Kolors-LoRA风格故事挑战赛_创新应用大赛_天池大赛-阿里云天池的赛制

点击报名参赛

一定要注意查看比赛协议，以免产生不必要的纠纷。

此外，报名者可以选择创建队伍，也可以加入队伍，还要特别注意的是要完成实名认证，更多详细规则不再赘述，读者可登录官网自行查看简单易懂。

第二步：创建环境

在本次夏令营的学习中，大家可以试用阿里云提供的PAI-DSW试用和魔塔平台的GPU试用

阿里云试用：具体试用步骤如下图所示

在魔塔社区进行授权：

魔塔社区快捷入口：https://www.modelscope.cn/my/mynotebook/authorization

进入后具体操作步骤如下

若已经试用过阿里云免费资源，还可以使用魔塔社区提供的36小时GPU折扣。

下面让我们正式进入baseline吧

第三步：速通baseline

1.选择实验环境

由于我阿里云试用过期，选择了魔塔社区提供的环境进行实验，这里大家注意，一定要选择方式二，GPU环境，CPU环境会出现无法训练的问题

2.下载baseline相关文件

在本步骤中，为了避免一些奇怪的错误，我们打开环境后，选择删除左方工作区的kolors文件夹，选择又方其他中的终端选项

接下来使用Git，进行文件克隆，具体如下输入箭头所指的两行命令，当左方工作区出现文件夹后证明已经成功，接着点击进入文件夹，继续点击baseline.ipynb，即可进入baseline编程文件中，进行操作

第一步，运行安装环境的文件，在左方变为对勾时，重启内核

第二步，下载数据集，左方工作区出现data文件即可

第三步，进行数据的预处理，以方便后面的训练，本步骤，无特殊说明，运行即可

第四步，训练模型，只要跟着我一步一步做到本单元，只要点击运行，耐心等待即可

此步仅查看了训练脚本的输入参数，对代码训练不会产生任何影响，所以，运行不运行均可

开始训练，该过程耗费时间较长，耐心等待

加载模型后即可开始生成图片了

适当修改提示词，生成专属于自己的图片

示例如下

最终结果如下，是不是更加青春洋溢了呢

yizhuo zhang

关注

27
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
Datawhale AI夏令营第四期魔搭- AIGC文生图方向 task01笔记

具体的工作流程如下图所示：提示词（Prompts）在文生图（Text-to-Image Generation）技术中起着至关重要的作用，它们是用户输入的文本描述，用于指导模型生成相应的图像。
复制链接

扫一扫