从零入门AI生图原理（一）（Datawhale X 魔搭 AI夏令营）

最新推荐文章于 2024-08-11 23:59:14 发布

数学难

最新推荐文章于 2024-08-11 23:59:14 发布

阅读量595

点赞数 5

文章标签：人工智能

本文链接：https://blog.csdn.net/m0_72765822/article/details/141073407

版权

一、文生图历史发展

1. 早期探索阶段（20世纪60年代-20世纪90年代）

特点：文生图的概念初步形成，主要依赖于规则和模板匹配技术。
限制：受计算能力和算法限制，生成的图像质量低，应用场景有限。
成果：初步展示了文本到图像的转换可能性，但技术尚不成熟。

2. 基于统计模型的发展阶段（2000年代）

特点：随着统计模型和机器学习技术的发展，文生图技术开始受到更多关注。
进展：利用概率图模型和统计语言模型进行图像生成，图像多样性和质量有所提升。
限制：模型复杂性和计算资源限制导致生成的图像仍较为粗糙，不够逼真。

3. 深度学习的崛起阶段（2010年代）

转折点：深度学习，特别是卷积神经网络（CNN）和生成对抗网络（GAN）的兴起，极大地推动了文生图技术的发展。
突破：GAN模型通过生成器和判别器的对抗训练，显著提升了图像生成的质量。
成果：各类变种GAN模型（如DCGAN、Pix2Pix）的提出，使文生图技术在生成逼真图像方面达到新高度。

4. 大规模预训练模型阶段（2020年代）

新时代：以CLIP、DALL-E和Stable Diffusion为代表的大规模预训练模型的出现，标志着文生图技术进入新纪元。
特点：通过大规模文本和图像配对数据训练，模型能够理解和生成高度一致的文本和图像。
能力提升：DALL-E和Stable Diffusion等模型在生成图像的创意、细节表现能力上取得显著提升，使得通过简单文本描述生成高质量、复杂图像成为可能。
应用广泛：技术应用于艺术创作、广告设计、辅助医疗诊断等多个领域，展现出广泛的商业价值和社会影响力。

二、文生图基础知识介绍

1、提示词

提示词很重要，一般写法：主体描述，细节描述，修饰词，艺术风格，艺术家

2、Lora

Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank Adaptation”，即低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。

3、ComfyUI

ComfyUI 是一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能，用户可以轻松地进行模型微调、数据预处理、图像生成等任务，从而提高工作效率和生成效果。

在ComfyUI平台的前端页面上，用户可以基于节点/流程图的界面设计并执行AIGC文生图或者文生视频的pipeline。

4、参考图控制

ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型（如Stable Diffusion模型）上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程，而ControlNet的作用在于引入额外的控制信号，使得用户能够更具体地指导图像生成的各个方面（如姿势关键点、分割图、深度图、颜色等）。

在AI绘画领域，参考图控制是一种重要的技术手段，它允许用户通过输入特定的参考图像来指导AI模型的创作过程，从而实现更加精准和个性化的图像生成效果。以下是几种常见的参考图控制类型及其详细总结：

1. OpenPose姿势控制

简介：OpenPose姿势控制利用姿态估计技术，将输入图片（或真实人物图片）中的姿势信息提取出来，作为AI绘画的参考。这种方法允许用户指定一个特定的姿势，然后AI会根据这个姿势生成一幅具有相同姿态的图片。
示例：用户输入一张包含人物姿势的图片，输入相应的prompt（如“穿着古代盔甲的战士”），AI便能生成一幅与输入图片姿势相同但细节（如服装、背景）由prompt描述的图片。
应用：适用于需要固定姿势但内容多变的艺术创作，如漫画绘制、游戏角色设计等。

2. Canny精准绘制

简介：Canny精准绘制通过输入一张线稿图作为参考，AI能够依据这些线条精准地绘制出相应的图像。Canny边缘检测算法常用于预处理线稿图，以确保线条的清晰和准确。
示例：用户输入一张简单的线稿图，指定prompt（如“星空下的城堡”），AI则会在保持线稿轮廓不变的基础上，填充细节和色彩，生成一幅完整的图像。
应用：适用于插画、概念图设计等需要精细线条控制的场景。

3. Hed绘制

简介：Hed绘制是一种更加灵活的线稿图控制方式，它通过获取渐变线条来提供比Canny更加丰富的绘制效果。Hed方法不仅保留了线条的清晰度，还能捕捉到线条的粗细变化和颜色渐变，使得生成的图像更加自然和生动。
示例：用户输入一张包含渐变线条的线稿图，AI会根据这些线条的变化生成一幅具有高度艺术感的图像。
应用：适用于需要表达复杂光影变化和材质质感的艺术创作，如水墨画、油画等。

4. 深度图Midas

简介：深度图Midas控制是通过输入一张深度图来指导AI绘画的。深度图记录了场景中各点到观察者的距离信息，AI可以根据这些信息生成具有立体感和空间感的图像。
示例：用户输入一张建筑的深度图，并指定prompt（如“黄昏时分的城市”），AI则会根据深度图中的信息，绘制出具有透视效果和光影变化的城市景象。
应用：适用于虚拟现实、建筑设计可视化等领域，需要精确表现空间关系的场景。

5. 颜色control

简介：颜色控制是通过参考图控制和颜色控制相结合，实现更加精准和个性化的图像生成效果。用户不仅可以指定参考图来控制图像的结构和形状，还可以通过颜色控制来调整图像的色彩搭配和氛围。
示例：用户同时输入一张参考图和一组颜色样本，AI会根据参考图的形状和颜色样本的色彩生成一幅新的图像。这种方法允许用户精确控制图像的色调、明暗对比等色彩要素。
应用：广泛应用于广告设计、UI设计等领域，需要精确控制色彩和风格的场景。