哪怕用笔记本的4070显卡运行DeepSeek,都要比128核的CPU快得多!

为了对抗大家在本地部署DeepSeek,众多云商都拿出了免费体验的服务模型,比如腾讯云:

https://ide.cloud.tencent.com/dashboard/gpu-workspace?fromSource=gwzcw.9299775.9299775.9299775

资源给的也是非常丰富,最高可以给到64核CPU+128 GB内存,不过都是没有GPU的实例规格,官方宣称适合高精度任务,如复杂推理、大规模知识库问答、专业领域内容生成和研究级应用。至于带GPU的免费版,无法选中!

55c31e6b549138172a53e1c0d3ff059f.png

如果选择64核CPU+128 GB内存这个规格,还可以用1563分钟,创建一个给大家简单演示一下。    

fdf7f29f9246651c4adc8ce9019e14a4.png

下方就是Linux的终端,检查一下系统配置。

294f48b085067093db700f5e3e162c8d.png

真厚道啊,说是64核,实际上CPU是128核的AMD EPYC 9754 128-Core Processor,主频2.2 GHz,跟我的服务器差不多。    

09b45782276c4e6f7eb85ae74ced43dc.png

内存是128 GB,跟宣传的一样,系统是Ubuntu 24.04.2 LTS。貌似比我的服务器也没高多少,那就还拿之前的问题试一下(一个小游戏里的数学问题,难倒了所有的人工智能:ChatGPT、DeepSeek、豆包、通义千问、文心一言)。    

13fdc8bd86ec9876136012490c564413.png

输出速度跟我的服务器差不多,大概每秒10-20个字。

5375c5814908b3fe19fe76808d934da6.png

运行过程中,内存占用大概23 GB,比待机的1.8 GB大概多了21 GB,CPU占用大约为44 核,貌似都差不多啊。    

24bdd06a43bca6c94b0c70feaa5daa3b.png

思考过程也快,大概一分钟;看结果也是简单粗暴,跟之前的通义千问差不多,就是说问题太难了(一个小游戏里的数学问题,难倒了所有的人工智能:ChatGPT、DeepSeek、豆包、通义千问、文心一言)。

那如果本地用GPU来部署会更快吗?

参考上次的教程(离线文件分享了,快来抄作业,本地部署一个DeepSeek个人小助理),我们使用4070试一下(PyTorch深度学习指南之:如何用深度学习工具获得一台4070游戏本)。    

8851435036112dff1f03e5e08747acaa.png

现在网盘中有1.5b、7b和8b三个版本,我电脑上还有一个14b,但是8 GB的显存估计也跑不起来,先用8b版本测试一下。

098b1225baa37d0560ae9b458f1ca63b.png

仅用时3分钟就完成了3个模型的导入!    

21d38bf735a0fb31d5be0f3e4c5adf6f.png

查看模型文件路径,可以看到导入时文件又被复制成了sha256格式名称的文件。

7cd432d7c1982e535668d8679e39e423.png

运行一下8b模型,输出速度跟官网有一拼,每秒大概有2-4行,相比128核的服务器也快了几十倍不止,输出长度也更长。

运行时大概占用了9%的CPU、不到1 GB的内存和全部GPU。    

cf828fde4363992dce5edf227aeeb189.png

查看GPU的显存占用,大概6 GB。

4823a670124ff9b7326d334a586c2e76.png

本次回答消耗了9158个token,但是输出结果有点意外,他只是给出了一个可能的结果示例。    

7a463d49230b3b9d8edef940457613a0.png

再试着换14b模型跑一下,输出速度明显大幅下降,原来是GPU显存资源不够用,跑到了CPU上面,毕竟我们之前测试14b版本需要将近11 GB的显存(帮你省20块!仅需2条命令即可通过Ollama本地部署DeepSeek-R1模型)。

e782cb82f068ed35d6253029ef2f485e.png

电脑的CPU已经跑慢,ollama的CPU利用率达到了93 %,占用了 4 GB内存,但是GPU还占了28.9 %,确实有6.5 GB的显存占用。    

b0de5cde2eddf8d974c85c14535c857e.png

估计是CPU性能不够,深度思考过程都没跑起来。

aa48de0253bf5a47c9526aaf6b235e03.png

至于这个token怎么计算的我没想明白,为啥1万多个token的输出比不到1万的少那么多?    

不管怎么说,还是要用GPU才能更快,即使是低配的4070也能轻松打败128核的CPU,到底要不要本地部署,你怎么看呢?   

后台回复“deepseek”获取本地部署用到的模型文件分享链接。  

***推荐阅读***

帮你省20块!仅需2条命令即可通过Ollama本地部署DeepSeek-R1模型

成了!Tesla M4+Windows 10 + Anaconda + CUDA 11.8 + cuDNN + Python 3.11

一个小游戏里的数学问题,难倒了所有的人工智能:ChatGPT、DeepSeek、豆包、通义千问、文心一言

离线文件分享了,快来抄作业,本地部署一个DeepSeek个人小助理

Ubuntu使用Tesla P4配置Anaconda+CUDA+PyTorch

Zabbix实战第一步:完成在Ubuntu Server的安装部署

Ubuntu磁盘空间不足或配置错误时,如何操作扩容?

Ubuntu安装、配置、操作、测评MySQL数据库全体验

当你买了一台Linux云主机,应该如何测试主机性能?

没有图形界面,如何快速部署一个Ubuntu 24.10的Server虚拟机

清华大模型ChatGLM3在本地Tesla P40上也运行起来了

一起学习几个简单的Python算法实现

用轻量应用服务器的注意了,0.5GB内存的规格请谨慎使用

f8d2e7e2f90d767524af927fc48e0b97.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Danileaf_Guo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值