CVPR讲座总结(一)-探索图像生成基础模型的最新进展

微凉的衣柜

已于 2024-06-25 12:45:11 修改

阅读量382

点赞数 18

分类专栏： CVPR讲座总结文章标签：人工智能计算机视觉 pytorch

于 2024-06-25 12:38:53 首次发布

本文链接：https://blog.csdn.net/weixin_41496173/article/details/139955765

版权

CVPR讲座总结专栏收录该内容

2 篇文章 0 订阅

订阅专栏

引言

在CVPR24上由杨正远（Zhengyuan Yang）主持的教程中，我们深入探讨了图像生成基础模型的激动人心的世界。这些模型在过去的一年中取得了显著进步，展示了在质量、人类对齐和推理速度方面的重大改进。这篇博客文章提供了教程中讨论的关键点的综合总结，包括训练技术、评估方法以及大规模多模态模型（LMMs）与生成模型的集成。

训练优良的生成基础模型

训练的关键组成部分

数据：
- 高质量图像数据与详细描述性字幕的重要性。
- 使用重新标注（recaptioning）来创建详细准确的文本描述，增强模型的提示跟随能力。
架构：
- 从传统的U-Net架构转向完全基于Transformer的架构。
- 采用潜在扩散模型（latent diffusion models），将图像映射到低维潜在空间中以提高计算效率。
训练范式：
- 引入如“校正流”（rectified flow）等先进技术，改进扩散模型的训练。
- 探索自回归模型及其扩展行为，包括用于高效图像生成的“下一尺度预测”（next-scale prediction）。

案例研究：稳定扩散3（SD3）

稳定扩散3展示了这些进步的集成：

数据：利用重新标注和多文本编码器（T5和CLIP）。
架构：实现了扩散Transformer架构。
训练范式：采用校正流进行有效训练，最终生成高质量的图像。

扩散推理加速

尽管生成模型在许多方面取得了进步，但推理速度仍然是一个挑战。为了应对这一问题，开发了几种技术：

高级扩散采样器：将生成图像所需的步骤从大约50步减少到10-20步左右。
扩散蒸馏：进一步将推理步骤减少到1-4步，使用一致性模型和对抗训练等技术。

训练后人类对齐

训练后技术旨在微调模型，使其更符合人类偏好。这些技术受大规模语言模型（LLMs）方法的启发，包括：

基于人类反馈的强化学习（RLHF）：利用人类偏好数据训练奖励模型，指导微调过程。
直接偏好优化：根据偏好数据直接调整模型输出，无需显式奖励模型。

图像生成模型的评估

评估生成模型不仅仅依赖于传统的指标，如FID和CLIP得分。它涉及：

检查细节：使用如VQA和UniDet模型确保生成图像符合特定属性和空间安排。
多样化评估方面：结合多个评估维度，以应对生成内容的复杂性。
新兴场景：为先进生成模型启用的新应用和能力开发基准。

与大规模多模态模型（LMMs）的集成

将生成基础模型与LMMs结合，旨在利用LMMs的推理能力实现更强的智能。这种集成可以：

改进生成推理：利用LMMs的世界知识增强文本提示和生成指令。
统一文本和图像生成：开发同时处理文本和图像生成任务的模型，采用自回归和扩散方法。
用于理解的生成模型：将生成模型重新用于分类和深度预测任务，从去噪过程中提取有用的表示。

结论

过去一年中，图像生成基础模型取得了显著进步，在数据质量、架构设计和训练范式方面都有重大改进。LMMs的集成进一步增强了这些模型的能力，开辟了应用和研究的新途径。随着该领域的不断发展，未来的重点可能会转向更复杂的模态，如视频和3D生成，以及进一步提高推理速度和人类对齐。

请继续关注这一迅速发展的领域中的更多令人兴奋的发展，并随时查看完整的教程以深入了解所讨论的技术和创新。

讲座视频：https://www.bilibili.com/video/BV1MJ4m1u7NR/?vd_source=c95e41f94ad03c19f5a4452a00211f6d

微凉的衣柜

关注

18
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CVPR讲座总结(一)-探索图像生成基础模型的最新进展

在CVPR24上由杨正远（Zhengyuan Yang）主持的教程中，我们深入探讨了图像生成基础模型的激动人心的世界。这些模型在过去的一年中取得了显著进步，展示了在质量、人类对齐和推理速度方面的重大改进。这篇博客文章提供了教程中讨论的关键点的综合总结，包括训练技术、评估方法以及大规模多模态模型（LMMs）与生成模型的集成。————————————————
复制链接

扫一扫