Datawhale X 魔搭 AI夏令营

最新推荐文章于 2024-10-04 22:36:54 发布

qq_41706399

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量541

点赞数 12

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41706399/article/details/141109046

版权

1 文生图的相关知识

1.1 简单介绍

文生图（Text-to-Image Generation）是一种通过文本生成图像的技术，其发展历程可以追溯到早期的计算机视觉和自然语言处理研究。这一技术的历史可以分为几个关键阶段：

1.2 生成模型的对比

1.3 Diffusion model的简介

1.3.1 描述

生成式模型本质上是从一组概率分布中得到另一组概率分布。如下图所示，左边是一个训练数据集，里面所有的数据都是从某个数据 $p_{data}$ 中独立同分布取出的随机样本。右边就是其生成式模型（概率分布），在这种概率分布中，找出一个分布 $p_{\theta }$ 使得它离 $p_{data}$ 的距离最近。接着在 $p_{\theta }$
上采新的样本，可以获得源源不断的新数据。

【DDPM扩散模型公式推理----扩散和逆扩散过程_ddpm 反向公式推导-CSDN博客】

1.3.2 感兴趣的公式推导

（1）利用贝叶斯公式，写成联合概率得到形式，得到分式形式；

（2）将分式的分子的第一项按照联合概率公式展开，第二项按条件概率展开；

（3）分式的分母按条件概率展开；

（4）结合马尔科夫性，即可得到上式。

1.4 文生图基础组成

文生图主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。

1.4.1 提示词

提示词很重要，一般写法：主体描述，细节描述，修饰词，艺术风格，艺术家。

1.4.2 Lora

Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank Adaptation”，即低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。

1.4.3 ComfyUI

ComfyUI 是一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能，用户可以轻松地进行模型微调、数据预处理、图像生成等任务，从而提高工作效率和生成效果。

在ComfyUI平台的前端页面上，用户可以基于节点/流程图的界面设计并执行AIGC文生图或者文生视频的pipeline。

1.4.4 参考图控制

ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型（如Stable Diffusion模型）上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程，而ControlNet的作用在于引入额外的控制信号，使得用户能够更具体地指导图像生成的各个方面（如姿势关键点、分割图、深度图、颜色等）。

2 从零入门AI生图原理&实践

1.1 速通指南

对于小白按照流程操作即可（Datawhale (linklearner.com)），还可参考各种大神的笔记：

（1）https://blog.csdn.net/linghyu/article/details/140971933?spm=1001.2014.3001.5501

（2）https://blog.csdn.net/qq_74869852/article/details/140971871

（3）http://t.csdnimg.cn/8Dvdm

1.2 魔搭热门文生图AI应用集锦

1.3 下一步

按照步骤操作，很快就可以得到相应结果，对于初学者来说非常友好。下一步就是了解baseline代码的结构，学习相关的知识，阅读优秀笔记，完成后续打卡任务！

关注

12
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。