背景
最近发现了一篇论文Unified Text-to-Image Generation and Retrieval,其引用的工作揭示了一个新方向,用MLLM做图片生成。
目前主流的图片生成是用扩散模型diffusion model,本文介绍另一种路径:基于多模态大模型MLLM做图片生成。
相关工作
- Minigpt-5: Interleaved vision-and-language generation via generative vokens. ICLR 2024 withdraw
- DreamLLM: Synergistic Multimodal Comprehension and Creation ICLR 2024 (Spotlight)
- Making LLaMA SEE and Draw with SEED Tokenizer ICLR 2024