【LLM多模态】Cogview3模型原理和训练过程

山顶夕景

已于 2024-07-18 20:16:37 修改

阅读量1.5k

点赞数 19

分类专栏： # 多模态大模型 # LLM大模型文章标签：图生文多模态大模型

于 2024-07-18 13:08:24 首次发布

本文链接：https://blog.csdn.net/qq_35812205/article/details/140506115

版权

LLM大模型同时被 2 个专栏收录

122 篇文章

订阅专栏

多模态大模型

37 篇文章

订阅专栏

note

基础阶段：生成512×512分辨率的图像，优化模型以生成高质量的图像。
超分辨率阶段：从512×512的输入生成1024×1024分辨率的图像，进一步优化图像的细节和清晰度。
蒸馏版本：通过减少采样步骤，生成与原始模型相似质量的图像，但推理时间大大减少。

一、Cogview3模型

论文：CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion

二、模型细节

CogView3模型的训练过程分为几个阶段，每个阶段都有其特定的目标和方法。以下是其训练过程的详细说明：

1. 文本预处理：

图像重描述：首先，CogView3通过自动生成图像的描述性标题来增强训练数据。这涉及到使用语言模型（如GPT-4V）自动生成图像的详细描述，从而提供更丰富、更相关的文本信息。
提示扩展：为了使模型能够更好地处理用户可能提供的简短提示，CogView3还探索了扩展用户提示的方法，使其在生成图像时能够更全面地理解用户的意图。

2. 模型框架：

CogView3的主体是一个具有3个阶段UNet架构的3亿参数的文本到图像扩散模型。模型在潜在图像空间中操作，该空间通过变分KL正则化自编码器从像素空间中压缩了8倍。

在这里插入图片描述

3. 训练pipeline：

使用Laion-2B作为基础训练数据集，并去除包含政治敏感、色情或暴力内容的图像，以确保训练数据的适当性和质量。
基础阶段训练：CogView3的基础阶段模型首先在256×256的图像分辨率上训练600,000步，然后继续在512×512的分辨率上训练200,000步。
超分辨率阶段训练：在预训练的512×512模型的基础上，进一步训练1024×1024分辨率的模型100,000步，然后进行20,000步的微调，以实现最终版本的超分辨率模型。

4. Relaying Super-resolution 中继超分辨率：

潜在中继扩散：CogView3的第二阶段通过中继扩散进行超分辨率增强，从基础阶段生成的结果开始扩散。与原始的像素级中继扩散不同，CogView3在潜在空间中实现中继扩散，并使用简单的线性变换代替原始的块状模糊。
生成过程：在扩散过程的每一步，采样器根据当前的噪声状态和模型参数生成新的样本。
逆向过程：在生成图像的逆向过程中，采样器从纯高斯噪声开始，逐步去除噪声，生成清晰的图像。
采样器公式：为中继超分辨率设计了特定的采样器，通过反向过程生成图像，该过程结合了去噪和去模糊。
- 它负责在模型的逆向过程中从噪声状态生成清晰的高分辨率图像

（1）正向扩散过程:

$q\left(x t \mid x_0\right)=\mathcal{N}\left(x t \mid F\left(x_0, t\right), \sigma_t^2 I\right), \quad t \in\{0, \ldots, T\}$

其中:

$x_0$ 是初始的高分辨率图像。
$x t$ 是时间步 $t$ 的图像。
$F(\cdot)$ 是从高分辨率图像 $x_0$ 到低分辨率图像 $x_L$ 的预定义转换。
$\sigma_t$ 是由噪声调度控制的噪声尺度。
$I$ 是单位矩阵。

（2）反向扩散过程：

反向扩散过程是一个结合去噪和去模糊的过程。它从纯高斯噪声开始, 逐步生成图像。这个过程可以表示为:
$q\left(x_{t-1} \mid x_t, x_0\right)=\mathcal{N}\left(x_{t-1} \mid a_t x_t+b_t \hat{x}_0+c_t x_0^t, \delta_t^2 I\right)$

其中:
$\circ a_t=\frac{\sigma_{t-1}^2-\delta_t^2}{\sigma_t^2}$

$b_t=\frac{1}{t}$
$c_t=\frac{t-1}{t}-a_t$
$\hat{x}_0$ 是预测的去噪结果。
$\delta_t$ 表示采样器的随机度。

（3）潜在空间中的中继扩散：

在CogView3中, 中继扩散在潜在空间中进行, 而不是在像素空间中。这个过程可以表示为：
$z_t^0=F\left(z_0, t\right)=\frac{T_r-t}{T_r} z_0+\frac{t}{T_r} z_L$

其中：

$z_0$ 是初始图像的潜在表示。
$z_L$ 是低分辨率图像的潜在表示。
$T_r$ 是中继扩散的开始时间点。
$z_t^0$ 是时间步 $t$ 的潜在表示。

（4）训练目标:

训练目标是最小化去噪后的潜在表示与原始潜在表示之间的差异:
$\mathbb{E}_{x_0 \sim p_{\text {data }}} \mathbb{E}_{\epsilon \sim \mathcal{N}(0, I)}\left\|D\left(z_t^0+\sigma_t \epsilon, t, c_{\text {text }}\right)-z_0\right\|^2$