❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- Meissonic 是由阿里巴巴集团等多所高校合作推出的高效文本到图像合成模型。
- 采用掩蔽生成变换器技术,能在消费级 GPU 上生成高达 1024x1024 像素的高分辨率图像。
正文(附运行示例)
Meissonic 是什么
Meissonic 是由阿里巴巴集团、Skywork AI 等多所大学合作推出的文本到图像合成模型。该模型采用掩蔽生成变换器(MIM)技术,结合多模态和单模态变换器层、先进的旋转位置编码(RoPE)策略及动态掩蔽率作为采样条件,显著提升了图像合成的性能和效率。Meissonic 能在消费级 GPU 上运行,生成高质量、高分辨率的图像,无需额外的模型优化,使其在资源受限的设备上也能提供强大的图像合成能力。
Meissonic 的主要功能
- 高分辨率图像生成:支持生成高达 1024x1024 像素的高分辨率图像。
- 文本到图像合成:根据用户输入的文本提示生成相应的图像。
- 零样本图像编辑:无需特定训练即可进行图像编辑,如背景更改、风格转换等。
- 风格化图像生成:生成具有特定艺术风格或主题的图像。
- 高效性能:优化模型架构和训练策略,确保在资源受限设备上的高效运行。
Meissonic 的技术原理
- 掩蔽生成变换器(MIM):采用非自回归的图像生成方法,通过随机掩蔽图像部分并预测掩蔽部分来重建完整图像。
- 多模态和单模态变换器层:结合多模态和单模态变换器层,提高模型对文本和图像交互的理解。
- 旋转位置编码(RoPE):使用 RoPE 编码位置信息,帮助模型在处理高分辨率图像时保持细节和上下文关联。
- 动态掩蔽率作为采样条件:调整掩蔽率以适应不同生成阶段,改善图像细节和整体质量。
- 特征压缩层:集成特征压缩层,高效处理大量离散令牌,保持计算效率。
如何运行 Meissonic
前置准备
- 克隆仓库:
git clone https://github.com/viiika/Meissonic/
cd Meissonic
- 创建虚拟环境并安装依赖:
conda create --name meissonic python
conda activate meissonic
pip install -r requirements.txt
- 安装 diffusers:
git clone https://github.com/huggingface/diffusers.git
cd diffusers
pip install -e .
使用方法
Gradio Web UI
启动 Web 界面:
python app.py
命令行接口
文本到图像生成
python inference.py --prompt "你的创意提示"
图像修复和扩展
python inpaint.py --mode inpaint --input_image 路径/到/图像.jpg
python inpaint.py --mode outpaint --input_image 路径/到/图像.jpg
高级:FP8 量化
优化性能需满足以下要求:
- CUDA 12.4
- PyTorch 2.4.1
- TorchAO
Windows 用户安装 TorchAO:
pip install --pre torchao --index-url https://download.pytorch.org/whl/nightly/cpu
命令行推理:
python inference_fp8.py --quantization fp8
Gradio FP8 量化(在高级设置中选择量化方法):
python app_fp8.py
资源
- GitHub 仓库:github.com/viiika/Meissonic
- HuggingFace 模型库:huggingface.co/MeissonFlow/Meissonic
- arXiv 技术论文:arxiv.org/pdf/2410.08261
- 在线体验 Demo:huggingface.co/spaces/MeissonFlow/meissonic
❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦