哈喽这里是海绵
前言
中国速度,DeepSeek深夜发布多模态"Janus-Pro"模型,性能碾压DALL·E 3,ComfyUI插件也支持了
所有的AI设计工具,安装包、模型和插件,都已经整理好了,👇获取~
0****1
介绍
2025年1月28日凌晨,中国AI公司DeepSeek突然放出“王炸”——开源多模态模型Janus-Pro-7B,在GenEval和DPG-Bench两大权威测试中,直接击败OpenAI的DALL·E 3和Stable Diffusion等业界标杆!更令人震撼的是,这款参数仅7B的模型竟支持图像生成+多模态理解,甚至能在普通高端电脑上运行。消息一出,英伟达股价暴跌17%,AI芯片市场掀起巨浪……
官方解释:
Janus-Pro 是一种新型的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然利用单一的统一Transformer架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro 超越了之前的统一模型,并匹配或超过了特定任务模型的性能。Janus-Pro 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。
1.解耦视觉编码架构
Janus-Pro首创“双路径”设计:
-
理解任务:采用SigLIP-L视觉编码器,支持384×384像素输入,精准解析图像语义。
-
生成任务:使用降采样率16的分词器,生成分辨率更高、细节更细腻的图像 。
这种分离设计避免了传统模型在“理解”与“生成”间的功能冲突,效率提升30%。
2.训练策略与数据优化
-
三阶段训练法:统一预训练+多模态对齐+指令微调,显著提升模型稳定性。
-
72M合成数据:通过合成与真实数据1:1混合,加速收敛并增强美学表现。
3.极简生成框架JanusFlow
集成自回归语言模型与“矫正流”(Rectified Flow),无需复杂架构调整即可生成高分辨率图像,技术门槛大幅降低。
该模型有两个版本: Janus-Pro-1b和Janus-Pro-7b ,展示了其针对各种用例的可扩展性。
ComfyUI里面也支持了,社区速度真滴厉害。
GitHub仓库:
https://github.com/deepseek-ai/Janus
02
相关安装
2.1插件安装
插件地址:
https://github.com/CY-CHENYUE/ComfyUI-Janus-Pro
节点管理器搜:Janus-Pro
2.2 模型安装
官方目前给出了2个模型,分别是7B和1B参数的
模型(7B):
https://huggingface.co/deepseek-ai/Janus-Pro-7B
模型(1B):
https://huggingface.co/deepseek-ai/Janus-Pro-1B
将模型文件放在 ComfyUI/models/Janus-Pro
03
使用说明
目前已经实现了文生图和图片反推功能,社区又多了一个选项。
工作流如下:
测试下来,主要用到这个图片反推功能,目前生成图像分辨率只有384x384,还需要后续继续加强。
反推提示词的效果很不错。
为了帮助大家更好地掌握 ComfyUI,我在去年花了几个月的时间,撰写并录制了一套ComfyUI的基础教程,共六篇。这套教程详细介绍了选择ComfyUI的理由、其优缺点、下载安装方法、模型与插件的安装、工作流节点和底层逻辑详解、遮罩修改重绘/Inpenting模块以及SDXL工作流手把手搭建。
由于篇幅原因,本文精选几个章节,详细版点击下方卡片免费领取
一、ComfyUI配置指南
- 报错指南
- 环境配置
- 脚本更新
- 后记
- …
二、ComfyUI基础入门
- 软件安装篇
- 插件安装篇
- …
三、 ComfyUI工作流节点/底层逻辑详解
- ComfyUI 基础概念理解
- Stable diffusion 工作原理
- 工作流底层逻辑
- 必备插件补全
- …
四、ComfyUI节点技巧进阶/多模型串联
- 节点进阶详解
- 提词技巧精通
- 多模型节点串联
- …
五、ComfyUI遮罩修改重绘/Inpenting模块详解
- 图像分辨率
- 姿势
- …
六、ComfyUI超实用SDXL工作流手把手搭建
- Refined模型
- SDXL风格化提示词
- SDXL工作流搭建
- …
由于篇幅原因,本文精选几个章节,详细版点击下方卡片免费领取