
项目地址:GitHub - VectorSpaceLab/OmniGen
项目目前还不完整,论文展现的通用性十分强大,就是不知道稳定性怎么样。
摘要
大型语言模型 (LLM) 的出现统一了语言生成任务,并彻底改变了人机交互。然而,在图像生成领域,能够在单个框架内处理各种任务的统一模型在很大程度上仍未得到探索。在这项工作中,我们介绍了 OmniGen,这是一种用于统一图像生成的新扩散模型。与流行的扩散模型(例如 Stable Diffusion)不同,OmniGen 不再需要 ControlNet 或 IP 适配器等额外模块来处理各种控制条件。OmniGen 具有以下特点:1) 统一:OmniGen 不仅展示了文本到图像的生成功能,而且本身也支持各种下游任务,例如图像编辑、主题驱动生成和视觉条件生成。此外,OmniGen 可以通过将经典的计算机视觉任务转换为图像生成任务(例如边缘检测和人体姿势识别)来处理这些任务。2) 简单性:OmniGen 的架构高度简化,无需额外的文本编码器。此外,与现有的扩散模型相比,它更加用户友好,能够通过指令完成复杂的任务,而无需额外的预处理步骤(例如,人体姿态估计)并花费大量成本,从而显著简化了图像生成的工作流程。3) 知识转移:受益于统一格式的学习,OmniGen 可以有效地在不同任务之间传递知识,管理看不见的任务和领域,并展示出新颖的能力。我们还探讨了该模型的推理能力和思维链机制的潜在应用。
- 统一:不仅可以文本生成图