【DeepSeek】本地快速搭建多模态理解和文生图 Janus-Pro-7B模型

从善若水

已于 2025-02-03 07:16:18 修改

阅读量2.1k

点赞数 22

分类专栏： AGI 文章标签： deepseek AGI 文生图多模态理解 Janus

于 2025-02-02 12:22:09 首次发布

本文链接：https://blog.csdn.net/qq_31985307/article/details/145418826

版权

AGI 专栏收录该内容

2 篇文章

订阅专栏

博主未授权任何人或组织机构转载博主任何原创文章，感谢各位对原创的支持！
博主链接

博客内容主要围绕：
       5G/6G协议讲解
       高级C语言讲解
       Rust语言讲解

文章目录

本地快速搭建多模态理解和文生图 Janus-Pro-7B模型
- 一、创建运行环境
- 二、下载项目代码并安装依赖
- 三、运行Gradio Demo

本地快速搭建多模态理解和文生图 Janus-Pro-7B模型

Janus-Pro是一种新的自回归框架，将多模态理解和生成统一起来。它通过将视觉编码解耦到单独的路径中，同时仍然使用单一、统一的transformer架构进行处理，解决了以前方法的局限性。解耦不仅缓解了视觉编码器在理解和生成方面的角色冲突，而且增强了框架的灵活性。Janus-Pro超越了以前的统一模型，并匹配或超过特定任务模型的性能。Janus-Pro的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

一、创建运行环境

我这边使用的是Anaconda，因此在cmd命令窗口中执行下面的命令创建一个虚拟环境：

conda create -n deepseek python=3.10 -y
conda activate deepseek

也可以使用pycharm或者miniforge

二、下载项目代码并安装依赖

运行下面的代码下载janus项目：

git clone https://github.com/deepseek-ai/Janus.git

这个项目中的requirements.txt文件中的 torch版本有问题，需要修改为更新的版本，以我这边测试为例，我使用的版本是：

torch==2.6.0+cu126 
--index-url https://download.pytorch.org/whl/cu126

transformers>=4.38.2
timm>=0.9.16
accelerate
sentencepiece
attrdict
einops

# for gradio demo
gradio==3.48.0
gradio-client==0.6.1
mdtex2html==1.3.0
pypinyin==0.50.0
tiktoken==0.5.2
tqdm==4.64.0
colorama==0.4.5
Pygments==2.12.0
markdown==3.4.1
SentencePiece==0.1.96

上面安装的版本是支持cuda 12.6 的torch版本，如果：

你没有显卡，则只需要修改为 torch==2.6.0 即可；
你的cuda版本和我的不一样，需要修改 torch 版本；

如何查看 cuda 版本？运行下面的命令查看：
nvidia-smi

如果无法执行上面的命令，需要先安装网卡驱动。

如何选择 torch 版本？

进入 https://download.pytorch.org/whl/cu<XXX>，XXX是你的cuda版本，例如我的是 CUDA 12.6，则XXX就是126，最后的地址就是 https://download.pytorch.org/whl/cu126；
找到 torch 目录点进去；
然后找到 torch-<X.Y.Z>+cu126-*.whl 符合这个规则的最新版本的 torch就行。

修改好requirements.txt文件后，执行下面的命令开始安装环境：