MakeAnything：手残党有救了！新加坡国立大学开源AI教程生成器：上传任意作品，自动生成分步图示指南！

最新推荐文章于 2025-05-13 20:33:05 发布

蚝油菜花

最新推荐文章于 2025-05-13 20:33:05 发布

阅读量777

点赞数 14

分类专栏：每日 AI 项目与应用实例文章标签：人工智能人工智能开源

本文链接：https://blog.csdn.net/qq_19841021/article/details/145717649

版权

每日 AI 项目与应用实例专栏收录该内容

659 篇文章

订阅专栏

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎬 「教程制作人集体失业？NUS用AI重构知识传递：上传任意作品，自动生成分步指南！」
大家好，我是蚝油菜花。你是否经历过——

👉 花3小时录制的烘焙教程，播放量不及猫咪打哈欠
👉 手工达人被粉丝催更到秃头，创意跟不上剪辑速度
👉 企业培训视频更新一次，要动用5个部门联合作战…

今天揭秘新加坡国立大学Show Lab团队的 MakeAnything ，这个基于扩散变换器的AI框架，正在掀起创作革命！它能将任意图像或文字描述，自动转换为逻辑严谨的步骤化教程，覆盖绘画/手工/烹饪等21个领域。美术老师用它5分钟生成课件，乐高设计师靠它逆向破解神作——你的知识生产方式该升级了！

🚀 快速阅读

MakeAnything 是一个基于扩散变换器（Diffusion Transformer）的多领域程序性序列生成框架。

核心功能：支持从文本或图像生成逻辑连贯、视觉一致的分步教程。
技术原理：结合非对称低秩适配（LoRA）技术和 ReCraft 模型，确保生成的教程与输入高度一致。

MakeAnything 是什么

MakeAnything

MakeAnything 是由新加坡国立大学 Show Lab 团队推出的一个多领域程序性序列生成框架，能够根据文本描述或图像输入生成高质量的分步教程。该框架基于扩散变换器（Diffusion Transformer），通过逐步去除噪声生成图像序列，并结合 Transformer 架构处理复杂的视觉和文本信息。此外，MakeAnything 引入了非对称低秩适配（LoRA）技术，平衡泛化能力和任务特定性能，确保在多种任务中展现卓越的性能和泛化能力。

MakeAnything 构建了一个涵盖 21 个领域（如绘画、手工、烹饪等）的大型数据集，包含超过 24,000 个标注序列。这些数据集为模型训练提供了丰富的支持，使 MakeAnything 能够生成逻辑连贯、视觉一致的教程，适用于多种应用场景。

MakeAnything 的主要功能

从文本生成教程：根据用户提供的文本描述（如“如何画一幅油画”或“如何制作乐高模型”），自动生成详细的分步教程，帮助用户逐步完成复杂的创作任务。
从图像生成教程：用户上传一张成品图像（如一幅画或一个手工制品），MakeAnything 能逆向生成该作品的创作过程，展示从无到有的步骤。
跨领域生成能力：支持多种领域（如绘画、手工、烹饪、3D 建模等），根据不同的任务生成逻辑连贯且视觉一致的教程。
高质量的教程输出：生成的教程逻辑清晰，且保持与输入文本或图像的高度一致性。

MakeAnything 的技术原理

扩散变换器：使用扩散模型的核心思想，基于逐步去除噪声生成图像序列。结合 Transformer 架构，处理复杂的视觉和文本信息，生成高质量的程序性序列。
非对称低秩适配：基于冻结预训练的编码器参数，仅对解码器进行微调，平衡模型的泛化能力和任务特定性能。适用于数据稀缺或分布不平衡的任务，有效避免过拟合。
ReCraft 模型：基于将静态图像分解为逐步的创作过程，实现从图像到过程的逆向生成。用多模态注意力机制，将图像条件信息融入生成过程中，确保生成的序列与输入图像高度一致。
条件流匹配损失：优化噪声去除过程中的条件向量场，确保生成的序列在逻辑和视觉上与输入条件（文本或图像）保持一致。

如何运行 MakeAnything

1. 环境搭建

git clone https://github.com/showlab/MakeAnything.git
cd MakeAnything

conda create -n makeanything python=3.11.10
conda activate makeanything

2. 安装依赖

pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
pip install --upgrade -r requirements.txt

accelerate config

3. Asymmetric LoRA 训练

chmod +x scripts/asylora_train.sh
scripts/asylora_train.sh

4. Recraft Model 训练

chmod +x scripts/recraft_train.sh
scripts/recraft_train.sh

5. 推理

chmod +x scripts/asylora_inference.sh
scripts/asylora_inference.sh

chmod +x scripts/recraft_inference.sh
scripts/recraft_inference.sh

资源

GitHub 仓库：https://github.com/showlab/MakeAnything
HuggingFace 仓库：https://huggingface.co/showlab/makeanything
HuggingFace 数据集：https://huggingface.co/datasets/showlab/makeanything

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦