最近 DeepSeek 实在是太火了,总结了下高赞的帖子以及现有的方式,基本符合下面两种模式。
1、Ollama、LM studio 这种一键安装 gguf 格式模型的软件,差不多可以实现 2 分钟完成本地部署
2、Chatbox 、CherryStudio、AnythingLLM 这种客户端软件,配合 ollama 可以进行可视化使用,并且添加 RAG 等功能。
今天给大家介绍下如何通过下载模型权重进行部署,包括 DeepSeek-R1 以及最新的 Janus-Pro 都可以按这个方式来部署。由于我们采用 transformers 下载了模型权重的方式部署,理论上所有模型都会支持,属于比较通用的方法,这个方法的缺点就是没有额外的加速推理的功能,推理速度会低于 Vllm、SGLang 等推理框架。
掌握了这个方法,你就又比别人更进一步。
一、模型下载
我们推荐国内用户使用 modelscope 去下载相关模型权重,下载速度更快、更稳定。ms 地址:https://www.modelscope.cn/organization/deepseek-ai
点击这个网址,就能看到 DeepSeek 的页面,红框里的模型就是我们熟悉的 R1 以及 Janus-Pro 模型,两者的下载过程是一样的,这里雨飞就以 Janus-Pro 为例,给大家演示下具体下载过程。
点击下方网址或者从红框内容进入,找到 Janus-Pro-1B 模型,打开如下方所示的页面,点击如图所示的「模型文件」按钮。
网址:https://www.modelscope.cn/models/deepseek-ai/Janus-Pro-1B
注意: Janus 是多模态的模型,1B 大小的模型显存占用在 8GB。如果低于 8GB 的,考虑用云服务器,或者去部署 DeepSeek R1 模型。
点击「下载模型」 会弹出一个对话框。
我们推荐使用 Git 进行下载,这种方式更稳定,也比较常用。Git lfs 是用于下载大型文件必备的软件,可以根据下面所示的安装教程去进行安装:https://git-lfs.com/
git lfs install` `git clone https://www.modelscope.cn/deepseek-ai/Janus-Pro-1B.git
执行上面命令,会在本地生成一个文件夹,等待下载模型完成。
二、环境配置
首先,需要下载 Janus 的项目,网址:https://github.com/deepseek-ai/Janus
点击右上角的 Code 按钮,在弹出的对话框中点击「Download ZIP」,将项目下载到本地,然后解压缩到一个目录。
然后可以在 VS code 或者 Cursor 中打开此项目,正常需要显示下面这些内容,则表示没有任何问题。
接下来需要安装 Python 环境以及安装相关依赖,有不清楚的地方可以去问问 AI 具体哪一步出现了问题。打开命令行,在当前目录下执行下方命令等待安装完成,如果遇到了网络问题可以换成下面第二个命令。
pip install -e .
命令2:使用清华源安装
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
三、实战
在上面打开的项目页面向下滑动,看到第三部分「Quick Start」,我们可以使用这里面的示例进行验证。官方提供了两个案例,一个是多模态的图片理解,另外一个是文生图。
以多模态理解为例,我们需要修改相关代码中的几个部分,大家可以根据我下面放出来的代码片段,将model_path、image、question 变量的内容进行修改,替换为自己模型的路径、图片所在的路径以及想要提问的内容。
import torch``from transformers import AutoModelForCausalLM``from janus.models import MultiModalityCausalLM, VLChatProcessor``from janus.utils.io import load_pil_images``# specify the path to the model``model_path = "E:\models\Janus-Pro-1B"``vl_chat_processor: VLChatProcessor = VLChatProcessor.from_pretrained(model_path)``tokenizer = vl_chat_processor.tokenizer``vl_gpt: MultiModalityCausalLM = AutoModelForCausalLM.from_pretrained(` `model_path, trust_remote_code=True``)``vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()``image = "images\doge.png"``question = "Extract all information from this image and convert them into markdown format."``conversation = [` `{` `"role": "<|User|>",` `"content": f"<image_placeholder>\n{question}",` `"images": [image],` `},` `{"role": "<|Assistant|>", "content": ""},``]
然后在命令行中执行这个代码,出现如下方所示的内容,表示案例执行成功,其中蓝色框里就是 Janus-Pro-1B 输出的内容。
四、DeepSeek-R1 实战
DeepSeek R1 模型,目前只有后缀带 qwen、llama 的蒸馏模型可以在本地使用 transformers 进行部署,也就是可以参考我们上面的安装步骤。
以 qwen 为后缀名的示例代码可以参考这个网站:
https://qwen.readthedocs.io/zh-cn/latest/getting_started/quickstart.html
成功执行后,可以在本地看到 标识符,这个就是思维链的推导过程,由于默认情况下只输出 512 个字符,推理过程偏长时,输出不完整。这个时候,需要在代码中,找到 512,把它调大些,比如 2048、4096 就可以看到完整的输出内容了。
下面是我把输出长度调整到 2048 之后的结果,可以看到 、 的标识符就都出来了。
最后,上面网站的代码只支持以 qwen 为后缀名的模型,大家可以根据自己的显存大小去体验下本地部署。蒸馏出来的模型,效果肯定要比原版的671B的模型差不少,根据我们自己的体验,要想在本地获得还不错的结果,最低选用32b的模型。因此,很多文章说着可以在本地体验R1模型,但也就是简单体验下,32b模型部署至少要32G内存,很多人电脑远达不到这个配置。
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓