【学习笔记】文生图模型——一、基础

HanYMR

已于 2024-03-03 20:43:04 修改

阅读量818

点赞数 15

分类专栏：研究生生涯文章标签：学习机器学习人工智能

于 2024-03-01 18:07:38 首次发布

本文链接：https://blog.csdn.net/HanYMR/article/details/136399005

版权

本文概述了机器学习的基本概念，包括定义、数据类型的应用、训练目的（拟合模型和预测）、损失函数与期望损失、过拟合与欠拟合的处理以及正则化的两种形式（L1和L2）。重点介绍了梯度下降方法在优化过程中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.机器学习

定义：如果机器通过经验E在任务T上提升了指标P，那么称机器对E进行了学习。

术语：学习过程=训练过程，n维属性=n个特征=输入变量=x，标签=目标变量=输出向量=y，算法=模型=映射

一组样本=数据集，样本是独立同分布的，一个数据集应划分为训练集和测试集。

1个实例=1个样本(sample)=1组特征值+对应标签。

例如鸢尾花分类任务，有4个特征（萼片长度，萼片宽度，花瓣长度，花瓣宽度），标签类型有3种（'setosa', 'versicolor', 'virginica'），那么其中一个样本可以为（4.1,3.2,1.4,0.2；'virginica'）

1. 连续型数据一般用于回归任务，离散型数据一般用于分类任务

2.训练的目的是用训练集来拟合一个最佳算法f，使得y=f(x,θ)，其中θ为算法可以学习的参数，概率模型通常拟合的是p(y|x)=f(x,θ)，用于预测

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

HanYMR

关注关注

15
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

（6-2-01）模型训练：文生图大模型的训练策略（1）

码农三叔

09-18

887

在这个例子中，使用预训练的ResNet模型提取图像特征，并使用预训练的BERT模型提取文本特征，然后将这些特征用于两个不同的任务：图像分类和文本分类。该模型结合了图像和文本信息，使用预训练的ResNet模型提取图像特征，使用预训练的BERT模型提取文本特征，并将两者融合后进行分类任务。（4）最后，创建模型的实例，并随机生成了图像特征和文本特征作为输入，将其输入模型进行前向传播，得到模型的输出结果。在训练文生图大模型的过程中，采用适当的训练策略至关重要，这些策略有助于提高模型的性能、稳定性和泛化能力。

文生图——DALL-E 3 —论文解读——第一版

TigerZ*的博客

10-25

2285

本文主要是DALL·E 3官方第一版技术报告（论文）的解读。一句话省流版，数据方面，训练时使用95%模型（CoCa）合成详细描述caption + 5%原本人类 caption，测试时使用GPT-4v 扩写人类caption；模型方面使用T5xxl + vae encoder + diffusion latent + 自家decoder 取得最好效果。

参与评论您还未登录，请先登录后发表或查看评论

【文生图系列】文生图大模型合集与效果对比

最新发布

m0_64365896的博客

03-20

700

（SD1.5）是由Stability AI在2022年8月22日开源的文生图模型，是SD最经典也是社区最活跃的模型之一。以SD1.5作为预训练模型，在火影忍者数据集上微调一个火影风格的文生图模型（非Lora方式），是学习的入门任务。显存要求 22GB左右在本文中，我们会使用模型在数据集上做训练，同时使用监控训练过程、评估模型效果。

AIGC大模型之——以文生图介绍

yamgyutou的博客

06-05

1万+

二是种子（作用是生成噪声图），固定的种子和固定的分辦率生成的噪声图是固定的，模型以这个为基础进行图片生成。（4）专业设计：将AI作画与专业领域的知识相结合，如3D建模、医疗、工业设计、建筑设计、教育等，先由Al根据提示制作粗略的草图，再由专业人员完成后续工作。（2）广告创意：快速生成各种类型的广告和宜传素材，也可以根据用户的需求生成个性化的广告，缩短制作成本和时间。（2）图像定制：用户可以选择不用的颜色，字体，背景，作画风格等，定制自己喜欢的图像。，一个完全开源的模型（代码，数据，模型全部开源）。

基于昇思MindSpore！华为诺亚方舟实验室推出创新PanGu-Draw模型，剑指文生图模型的训推效率和生成效果提升

Kenji_Shinji的博客

01-24

1651

该模型架构包含两大创新：一是面向效率提升的“时间解耦训练策略”，它将模型分为结构生成和纹理生成两个子模型，分别优化训练策略，从而提高了约48%的数据利用效率、51%的训练效率和50%的推理效率；该算法成功地将不同潜在空间和分辨率的扩散模型去噪过程统一到同一空间，实现了多个图像扩散模型的有效融合，开辟了新的图像生成途径。Coop-Diffusion算法的创新之处在于，它能够将先前难以兼容的多个扩散模型融合为一个统一的整体，从而在保持图像质量的同时，提高了模型在实际应用中的灵活性和效率。

【文生图系列】基础篇-变分推理（数学推导）

陶将的博客

06-18

4120

此篇博文主要介绍什么是变分推理(Variational Inference , VI)，以及它的数学推导公式。变分推理，是机器学习中一种流行的方式，使用优化的技术估计复杂概率密度。变分推理的工作原理：**首先选择一系列概率密度函数，然后采用KL散度作为优化度量找到最接近于概率密度的函数**。引入evidence lower bound的方法更容易计算近似概率。

【学习笔记】文生图模型——Stable diffusion3.0

HanYMR的博客

03-28

2552

2.0原理才看到VAE，sd3.0就发布了，虽然还没看到源码和详解，但原来的那个小方向估计得弃。人已经麻了。

stable diffusion学习笔记——文生图（一）

师范大学生的博客

01-27

2307

基本模型也就是常说的checkpoint（大模型），基本模型决定了生成图片的主体风格。如上图所示，基本模型的后缀为.safetensors。需要存放在特定的文件夹下。如果用的是启动器，可以在启动器内直接下载。

视觉文生图模型学习过程

m0_52945258的博客

09-17

838

持更

2401_82426425的博客

01-23

6417

本文提出了Imagen，一款新型的文本到图像扩散模型，实现了极高的真实感和深度语言理解。本文提出了DreamBooth，一种个性化文生图模型，它通过微调预训练的文生图模型，如Imagen，将一个独特的标识符与某个物体绑定，这样模型就可以在含有该标识符的prompt下，在不同场景中生成包含该物体的新颖图片。本文提出了SDXL Turbo，它在 SDXL 1.0 的基础上进行迭代，并为文本到图像模型实现了一种新的蒸馏技术：对抗扩散蒸馏（ADD），能够高效地从大规模基础图像扩散模型中采样，同时保持高质量图像。

Kolors AIGC文生图中文、英文数据集分别lora微调案例对比

weixin_42357472的博客

07-26

562

使用处理数据集参考：https://blog.csdn.net/weixin_42357472/article/details/140144141。处理成DiffSynth-Studio框架格式，这里选取50张做微调。主要前两列，这是训练的英文label。

AIGC：文生图模型Stable Diffusion

十年以上架构设计经验，专注于软件架构和人工智能领域，对机器视觉、NLP、音视频等领域都有涉猎

07-06

1万+

Stable Diffusion 是由CompVis、Stability AI和LAION共同开发的一个文本转图像模型，它通过LAION-5B子集大量的 512x512 图文模型进行训练，我们只要简单的输入一段文本，Stable Diffusion 就可以迅速将其转换为图像，同样我们也可以置入图片或视频，配合文本对其进行处理。

文生图算法原理：从扩散模型到Stable Diffusion

A2421417624的博客

03-26

4055

AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。感兴趣的小伙伴，赠送全套AIGC学习资料和安装工具，包含AI绘画、AI人工智能等前沿科技教程，模型插件，具体看下方。

人类历史上第一个文生图AI算法——alignDRAW

weixin_47964286的博客

05-11

1396

Elman Mansimov及其同僚在2015年11月9日所发表的论文《GENERATING IMAGES FROM CAPTIONS WITH ATTENTION：ICLR》提出一个名为alignDRAW的模型，代表了在人工智能领域从文本描述到图像生成（Text-to-Image）技术的首次突破，标志性地开创了该领域的研究先河，奠定了当前文生图AI模型的基础。

多模态大模型文生图和图生文的主要技术

酌沧

01-05

2554

该模型架构由图像编码器和文本编码器组成。图像编码器将图像转换为嵌入（数字列表），文本编码器将文本转换为嵌入。这两个编码器在成批的图像-文本对上进行训练，其中文本描述图像。编码器的训练方式如下：对于每个图像-文本对，图像和文本嵌入彼此“接近”。对于所有不匹配的图像-文本对，图像和文本嵌入彼此相距甚远。注意，有很多种方法可以测量两个嵌入之间的距离。一些常用的方法是欧几里得距离和余弦相似度。CLIP 使用后者。此图中有 N 个图像-文本对。I N和 T N是第 N 个图像-文本对的图像和文本嵌入。

(5-3-02)常用的文生图预训练模型：基于VQGAN+CLIP的文生图系统（1）项目介绍+部署配置+模型和资源管理

码农三叔

08-28

717

在该文件中定义了构建环境的详细信息，包括使用的 GPU 和 CUDA 版本、Python 版本以及所需的系统和 Python 包。此外，predict 字段指定了预测功能的实现文件及类，即 predict.py 中的 Predictor 类，用于处理输入并生成输出。项目中包含了多个脚本，如 generate.py 用于图像生成，opt_tester.sh 用于优化器测试，video_styler.sh 用于视频帧的风格化处理，以及 random.sh 用于生成随机文本提示，展示了强大的多媒体生成能力。

（11-5-02）基于Masked Transformers（掩码变换器扩散模型）的文生图系统：模型训练和评估(2)损失函数

码农三叔

11-20

335

文件loss.py定义了一个名为 EDMLoss 的损失函数类和几个辅助函数，用于训练基于扩散模型（Diffusion Model）的生成模型。EDMLoss 是一种改进的损失函数，它通过在模型生成的图像和目标图像之间计算加权的均方误差来优化模型。文件loss.py中还包括一个 patchify 函数，用于将图像分割成小块。函数mae_loss用于计算基于图像块的均方误差损失。整个代码旨在提高生成模型的图像质量，尤其是在使用掩码机制进行训练时。

文生图模型

03-11

研究者们发现了一个有趣的现象——所谓的“突然收敛”，即模型并不会逐步改善其对输入指令的理解程度；相反地，会在某个时刻迅速达到较好的效果[^3]。这一特点表明了模型内部可能存在某种阈值效应或者临界状态转换的...