从零入门AI生图原理(一)(Datawhale X 魔搭 AI夏令营)

一、文生图历史发展

1. 早期探索阶段(20世纪60年代-20世纪90年代)

  • 特点:文生图的概念初步形成,主要依赖于规则和模板匹配技术。
  • 限制:受计算能力和算法限制,生成的图像质量低,应用场景有限。
  • 成果:初步展示了文本到图像的转换可能性,但技术尚不成熟。

2. 基于统计模型的发展阶段(2000年代)

  • 特点:随着统计模型和机器学习技术的发展,文生图技术开始受到更多关注。
  • 进展:利用概率图模型和统计语言模型进行图像生成,图像多样性和质量有所提升。
  • 限制:模型复杂性和计算资源限制导致生成的图像仍较为粗糙,不够逼真。

3. 深度学习的崛起阶段(2010年代)

  • 转折点:深度学习,特别是卷积神经网络(CNN)和生成对抗网络(GAN)的兴起,极大地推动了文生图技术的发展。
  • 突破:GAN模型通过生成器和判别器的对抗训练,显著提升了图像生成的质量。
  • 成果:各类变种GAN模型(如DCGAN、Pix2Pix)的提出,使文生图技术在生成逼真图像方面达到新高度。

4. 大规模预训练模型阶段(2020年代)

  • 新时代:以CLIP、DALL-E和Stable Diffusion为代表的大规模预训练模型的出现,标志着文生图技术进入新纪元。
  • 特点:通过大规模文本和图像配对数据训练,模型能够理解和生成高度一致的文本和图像。
  • 能力提升:DALL-E和Stable Diffusion等模型在生成图像的创意、细节表现能力上取得显著提升,使得通过简单文本描述生成高质量、复杂图像成为可能。
  • 应用广泛:技术应用于艺术创作、广告设计、辅助医疗诊断等多个领域,展现出广泛的商业价值和社会影响力。

二、文生图基础知识介绍

1、提示词

提示词很重要,一般写法:主体描述,细节描述,修饰词,艺术风格,艺术家

2、Lora

Stable Diffusion中的Lora(LoRA)模型是一种轻量级的微调方法,它代表了“Low-Rank Adaptation”,即低秩适应。Lora不是指单一的具体模型,而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下,Lora被用来对预训练好的大模型进行针对性优化,以实现对特定主题、风格或任务的精细化控制。

3、ComfyUI

ComfyUI 是一个工作流工具,主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能,用户可以轻松地进行模型微调、数据预处理、图像生成等任务,从而提高工作效率和生成效果。

在ComfyUI平台的前端页面上,用户可以基于节点/流程图的界面设计并执行AIGC文生图或者文生视频的pipeline。

4、参考图控制

ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型(如Stable Diffusion模型)上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程,而ControlNet的作用在于引入额外的控制信号,使得用户能够更具体地指导图像生成的各个方面(如姿势关键点、分割图、深度图、颜色等)。

在AI绘画领域,参考图控制是一种重要的技术手段,它允许用户通过输入特定的参考图像来指导AI模型的创作过程,从而实现更加精准和个性化的图像生成效果。以下是几种常见的参考图控制类型及其详细总结:

1. OpenPose姿势控制
  • 简介:OpenPose姿势控制利用姿态估计技术,将输入图片(或真实人物图片)中的姿势信息提取出来,作为AI绘画的参考。这种方法允许用户指定一个特定的姿势,然后AI会根据这个姿势生成一幅具有相同姿态的图片。
  • 示例:用户输入一张包含人物姿势的图片,输入相应的prompt(如“穿着古代盔甲的战士”),AI便能生成一幅与输入图片姿势相同但细节(如服装、背景)由prompt描述的图片。
  • 应用:适用于需要固定姿势但内容多变的艺术创作,如漫画绘制、游戏角色设计等。
2. Canny精准绘制
  • 简介:Canny精准绘制通过输入一张线稿图作为参考,AI能够依据这些线条精准地绘制出相应的图像。Canny边缘检测算法常用于预处理线稿图,以确保线条的清晰和准确。
  • 示例:用户输入一张简单的线稿图,指定prompt(如“星空下的城堡”),AI则会在保持线稿轮廓不变的基础上,填充细节和色彩,生成一幅完整的图像。
  • 应用:适用于插画、概念图设计等需要精细线条控制的场景。
3. Hed绘制
  • 简介:Hed绘制是一种更加灵活的线稿图控制方式,它通过获取渐变线条来提供比Canny更加丰富的绘制效果。Hed方法不仅保留了线条的清晰度,还能捕捉到线条的粗细变化和颜色渐变,使得生成的图像更加自然和生动。
  • 示例:用户输入一张包含渐变线条的线稿图,AI会根据这些线条的变化生成一幅具有高度艺术感的图像。
  • 应用:适用于需要表达复杂光影变化和材质质感的艺术创作,如水墨画、油画等。
4. 深度图Midas
  • 简介:深度图Midas控制是通过输入一张深度图来指导AI绘画的。深度图记录了场景中各点到观察者的距离信息,AI可以根据这些信息生成具有立体感和空间感的图像。
  • 示例:用户输入一张建筑的深度图,并指定prompt(如“黄昏时分的城市”),AI则会根据深度图中的信息,绘制出具有透视效果和光影变化的城市景象。
  • 应用:适用于虚拟现实、建筑设计可视化等领域,需要精确表现空间关系的场景。
5. 颜色control
  • 简介:颜色控制是通过参考图控制和颜色控制相结合,实现更加精准和个性化的图像生成效果。用户不仅可以指定参考图来控制图像的结构和形状,还可以通过颜色控制来调整图像的色彩搭配和氛围。
  • 示例:用户同时输入一张参考图和一组颜色样本,AI会根据参考图的形状和颜色样本的色彩生成一幅新的图像。这种方法允许用户精确控制图像的色调、明暗对比等色彩要素。
  • 应用:广泛应用于广告设计、UI设计等领域,需要精确控制色彩和风格的场景。

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值