MakeAnything:手残党有救了!新加坡国立大学开源AI教程生成器:上传任意作品,自动生成分步图示指南!

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎬 「教程制作人集体失业?NUS用AI重构知识传递:上传任意作品,自动生成分步指南!」
大家好,我是蚝油菜花。你是否经历过——

  • 👉 花3小时录制的烘焙教程,播放量不及猫咪打哈欠
  • 👉 手工达人被粉丝催更到秃头,创意跟不上剪辑速度
  • 👉 企业培训视频更新一次,要动用5个部门联合作战…

今天揭秘新加坡国立大学Show Lab团队的 MakeAnything ,这个基于扩散变换器的AI框架,正在掀起创作革命!它能将任意图像或文字描述,自动转换为逻辑严谨的步骤化教程,覆盖绘画/手工/烹饪等21个领域。美术老师用它5分钟生成课件,乐高设计师靠它逆向破解神作——你的知识生产方式该升级了!

🚀 快速阅读

MakeAnything 是一个基于扩散变换器(Diffusion Transformer)的多领域程序性序列生成框架。

  1. 核心功能:支持从文本或图像生成逻辑连贯、视觉一致的分步教程。
  2. 技术原理:结合非对称低秩适配(LoRA)技术和 ReCraft 模型,确保生成的教程与输入高度一致。

MakeAnything 是什么

MakeAnything

MakeAnything 是由新加坡国立大学 Show Lab 团队推出的一个多领域程序性序列生成框架,能够根据文本描述或图像输入生成高质量的分步教程。该框架基于扩散变换器(Diffusion Transformer),通过逐步去除噪声生成图像序列,并结合 Transformer 架构处理复杂的视觉和文本信息。此外,MakeAnything 引入了非对称低秩适配(LoRA)技术,平衡泛化能力和任务特定性能,确保在多种任务中展现卓越的性能和泛化能力。

MakeAnything 构建了一个涵盖 21 个领域(如绘画、手工、烹饪等)的大型数据集,包含超过 24,000 个标注序列。这些数据集为模型训练提供了丰富的支持,使 MakeAnything 能够生成逻辑连贯、视觉一致的教程,适用于多种应用场景。

MakeAnything 的主要功能

  • 从文本生成教程:根据用户提供的文本描述(如“如何画一幅油画”或“如何制作乐高模型”),自动生成详细的分步教程,帮助用户逐步完成复杂的创作任务。
  • 从图像生成教程:用户上传一张成品图像(如一幅画或一个手工制品),MakeAnything 能逆向生成该作品的创作过程,展示从无到有的步骤。
  • 跨领域生成能力:支持多种领域(如绘画、手工、烹饪、3D 建模等),根据不同的任务生成逻辑连贯且视觉一致的教程。
  • 高质量的教程输出:生成的教程逻辑清晰,且保持与输入文本或图像的高度一致性。

MakeAnything 的技术原理

  • 扩散变换器:使用扩散模型的核心思想,基于逐步去除噪声生成图像序列。结合 Transformer 架构,处理复杂的视觉和文本信息,生成高质量的程序性序列。
  • 非对称低秩适配:基于冻结预训练的编码器参数,仅对解码器进行微调,平衡模型的泛化能力和任务特定性能。适用于数据稀缺或分布不平衡的任务,有效避免过拟合。
  • ReCraft 模型:基于将静态图像分解为逐步的创作过程,实现从图像到过程的逆向生成。用多模态注意力机制,将图像条件信息融入生成过程中,确保生成的序列与输入图像高度一致。
  • 条件流匹配损失:优化噪声去除过程中的条件向量场,确保生成的序列在逻辑和视觉上与输入条件(文本或图像)保持一致。

如何运行 MakeAnything

1. 环境搭建
git clone https://github.com/showlab/MakeAnything.git
cd MakeAnything

conda create -n makeanything python=3.11.10
conda activate makeanything
2. 安装依赖
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
pip install --upgrade -r requirements.txt

accelerate config
3. Asymmetric LoRA 训练
chmod +x scripts/asylora_train.sh
scripts/asylora_train.sh
4. Recraft Model 训练
chmod +x scripts/recraft_train.sh
scripts/recraft_train.sh
5. 推理
chmod +x scripts/asylora_inference.sh
scripts/asylora_inference.sh

chmod +x scripts/recraft_inference.sh
scripts/recraft_inference.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值