论文阅读笔记——PixArt-α,PixArt-δ

PixArt-α

PixArt-α 论文
仅使用 28400 美元,28M 训练数据,训练时长为 SD 1.5 的 10.8%,只有 0.6B 参数量,达到接近商业应用的水准。
现有数据集存在的缺陷:图文匹配偏差、描述信息不完整、词汇多样性不足(长尾效应显著)、低质量数据。
为了实现低成本训练,华为采用了三阶段的训练策略:第一个阶段是学习像素依赖关系,简单来说是先学习生成真实的图像,这里是用ImageNet数据集训练一个基于类别的条件扩散模型;然后是学习文本和图像的对齐,即学习文本作为条件下的图像生成,这里的一个关键是采用 LVLM (Large Vision-Language Model) 来给图像生成更详细的文本描述;最后一个阶段是高质量微调,即采用高分辨率和高美学图像对模型进行微调。
在这里插入图片描述
由于 Transformer 块中有 3 个 MLP,6 个参数,占总参数量的 27%,由于是训练一个文本引导的图像扩散模型,不需要类别标签,那么所有的 MLP 本质上在学习相似的时序模式。故改用单个 MLP 生成基准参数 S = f ( t ) S=f(t) S=f(t),为每个块引入可训练嵌入 E ( i ) E(i) E(i),每个块最终的参数为 S ( i ) = f ( t ) + E ( i ) S(i)=f(t)+E(i) S(i)=f(t)+E(i),同时为了保证与原来 3 个不同 MLP 的一致性,强制 t = 500 t=500 t=500 时,与原设计输出一致。
在第二阶段,文本-图像对齐时,之前部分文生图模型都是基于 LAION 数据集训练,但其噪声过大,图片对应的文本描述不准确。采用了 LLaVA 为图片生成更详细的描述,并采用包含丰富物体的 SAM 数据集,“ Describe this image and its style in a very detailed manner.”,认为质量比数据量更重要,采用 256×256 分辨率训练。
第三阶段,对高分辨率和高质量图像微调。采取和 SDXL 一样的渐进式训练策略:256×256->512×512->1024×1024

生成结果

在这里插入图片描述

PixArt-δ

PixArt-δ 论文
将 Latent Consistency Model (LCM) 集成到 PixArt-α,显著加快推理速度,生成 1024×1024 图像只需要 0.5s, 在 32GB V100 GPU 上仅用一天完成训练。使用 ControlNet 实现细粒度的文本控制。
对于 LCD 算法采取三模型:EMA、Teacher、Student,分别作为 ODE 求解器 Φ \Phi Φ f θ f_\theta fθ f θ − f_{\theta^-} fθ 的去噪器。通过固定 CFG 系数,简化 LCM 的动态引导策略,减少训练复杂度。(4 步采样加速)
在这里插入图片描述
在这里插入图片描述

生成结果

在这里插入图片描述

### 安装 PixArt-Alpha 的方法 要在 Windows 系统上安装 PixArt-Alpha 工具,通常需要遵循以下配置和操作指南: #### 准备环境 确保计算机满足运行 PixArt-Alpha 所需的最低硬件和软件需求。这可能包括支持 CUDA 的 GPU 和兼容的操作系统版本。访问项目主页获取详细的依赖项列表[^1]。 #### 下载源码或预编译包 前往 PixArt-Alpha 的官方页面 `http://pixart-alpha.github.io/PixArt-sigma-project/` 获取最新版本的下载链接。如果提供了二进制文件,则可以直接下载并解压;如果没有,可以选择克隆 GitHub 仓库来获得完整的源代码。 ```bash git clone https://github.com/PixArt-alpha/PixArt-sigma-project.git cd PixArt-sigma-project ``` #### 配置开发环境 根据项目的文档说明设置 Python 环境以及必要的库。推荐使用虚拟环境隔离依赖关系。 ```bash # 创建一个新的Python虚拟环境 (可选) python -m venv pixart_env source pixart_env/bin/activate # Linux/MacOS 或者在Windows下使用:pixart_env\Scripts\activate.bat # 安装所需的Python包 pip install --upgrade pip pip install -r requirements.txt ``` 注意:requirements 文件列出了所有必需的第三方模块及其特定版本号,这些对于正确执行程序至关重要。 #### 测试安装 完成上述步骤之后,可以通过运行一些示例脚本来验证安装是否成功。例如尝试加载模型或者处理一段测试视频数据以观察输出质量是否达到预期标准如减少闪烁现象、提高帧间一致性等特性描述所提到的效果[^2]。 ```python from ltx_video import process_video input_path = 'path/to/input.mp4' output_path = 'path/to/output.mp4' process_video(input_path, output_path) print(f"Processed video saved at {output_path}") ``` 以上代码片段展示了如何调用 LTX Video 功能接口来进行基本的数据处理流程演示。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值