【Datawhale X 魔塔 AI 夏令营】 Task 1 笔记

chrischen27

已于 2024-08-11 23:29:32 修改

阅读量563

点赞数 25

文章标签：人工智能笔记

于 2024-08-11 23:29:01 首次发布

本文链接：https://blog.csdn.net/chrischen27/article/details/141114093

版权

task 1 学习链接

文生图的历史

文生图（Text-to-Image Generation）技术的发展历程可以概括为以下几个阶段：

早期探索（20世纪60年代-20世纪90年代）
- 依赖规则和模板匹配，生成简单图形。
- 图像质量低，应用场景有限。
基于统计模型的方法（2000年代）
- 利用概率图模型和统计语言模型生成图像。
- 图像质量有所提升，但仍较粗糙。
深度学习的崛起（2010年代）
- GAN技术的引入极大提高了图像质量。
- DCGAN、Pix2Pix等模型进一步提升细节和逼真度。
大规模预训练模型（2020年代）
- CLIP、DALL-E、Stable Diffusion等模型出现。
- 能够生成高质量、复杂图像，广泛应用于多个领域。

文生图基础知识介绍

主要流程

图片来自Task 1学习手册

提示词(Prompts)

重要性：提示词对于生成高质量图像至关重要，它们定义了生成图像的内容、细节、风格等。
一般写法：通常包含主体描述、细节描述、修饰词、艺术风格、艺术家等元素。
负向提示词：用于排除不想要的元素。

LoRA

定义：LoRA（Low-Rank Adaptation）是一种轻量级的微调技术，用于在不大幅改变原模型的基础上进行快速适应。
作用：通过LoRA，可以针对特定的主题、风格或任务对预训练的大模型进行微调，实现更精细的控制。
应用：在Stable Diffusion中，LoRA模型用于实现对特定细节的优化。

ComfyUI

定义：ComfyUI是一个用户友好的工作流工具，旨在简化AI模型的配置、训练和图像生成过程。
功能：提供了一个基于节点/流程图的界面，便于用户构建和执行AI生成内容（AIGC）的工作流程。
优势：提高效率和生成质量。

ControlNet

定义：ControlNet是一个附加于预训练扩散模型（如Stable Diffusion）上的模块，用于引入额外的控制信号，帮助更精确地指导图像生成过程。
类型：
- OpenPose姿势控制：通过输入一张姿势图片，AI可以根据该姿势生成相应图像。
- Canny精准绘制：基于线稿图生成精确绘制的图像。
- HED绘制：HED（Holistically-Nested Edge Detection）提供渐变线条的线稿图控制，比Canny更为灵活。
- 深度图Midas：利用深度图生成具有空间层次感的图像。
- 颜色控制：通过颜色参考图控制生成图像的颜色方案。

图生图的历史

图生图（Image-to-Image Translation）技术发展历程的一个概括：

早期探索（20世纪90年代-2000年代初）
- 传统图像处理技术：依赖于图像处理算法，如边缘检测、色彩空间转换等，用于简单的图像转换任务。
- 基于规则的方法：使用特定的规则和模板匹配技术来生成或修改图像，但生成的图像较为简单且缺乏细节。
基于统计模型的方法（2000年代中期-2010年代初）
- 概率图模型：利用概率图模型和统计语言模型来生成图像，例如马尔可夫随机场（MRF）和条件随机场（CRF）等。
- 图像拼接与合成：通过图像拼接和合成技术来创建新的图像，这些技术能够产生更为复杂的图像，但仍然存在明显的拼接痕迹。
深度学习的崛起（2010年代中期-2020年代初）
- 卷积神经网络（CNNs）：CNNs被广泛应用于图像分类和目标检测，同时也被用于图像到图像的转换任务。
- 生成对抗网络（GANs）：GANs的引入极大地提高了图像的质量和逼真度。例如，Pix2Pix模型通过条件GANs实现了从一种图像到另一种图像的直接转换。
- 循环一致网络（CycleGANs）：这种无监督学习方法允许在未配对的数据集之间进行图像风格迁移和转换，大大扩展了图像转换的应用范围。
大规模预训练模型（2020年代至今）
- 高级GAN架构：包括StyleGAN、Progressive GAN等，它们能够生成高度逼真的图像，并支持更多样化的图像转换任务。
- 多模态融合：将文本、图像等多种模态的信息结合在一起，实现更加复杂的图像生成任务。
- Stable Diffusion ：是一个非常强大的模型，它主要用于文本到图像（Text-to-Image）生成任务，但它也可以被适当地调整和应用于图像到图像（Image-to-Image）转换任务。

小结

baseline的实施过程很顺利，没有遇到什么问题，成功根据提示词生成了图像。

图片来自baseline代码生成
通过这次对文生图技术的深入学习，我希望进一步拓展到图生图领域，尤其是将Stable Diffusion模型应用到具体的图生图任务中，并探索其在智能设计领域的潜在应用价值。
Stable Diffusion能够在图像修复、风格迁移、以及图像增强等任务中表现出色，而我希望进一步研究如何将这些技术应用到智能设计中。在智能设计领域，Stable Diffusion可以帮助我们自动生成设计方案，模拟不同的设计风格，并在保证设计质量的同时大幅提升效率。