DeepSeek 8B,14B,32B,70B在ubuntu,mac上的性能测试结果

分别基于Ubuntu22.04, Macbook Pro M芯片模型测试:

ubuntu配置:Macbook Pro

CPU: 13th Gen Intel(R) Core(TM) i7-13700KF

显卡: NVIDIA GeForce RTX 4070 Ti 12GB

内存:80G

系统版本:Window11 WSL Ubuntu 22.04.5 LTS

CPU:  Apple M1 Max

显卡:Apple M1 Max Metal 3

内存:32G

系统版本:14.6.1

Macbook Pro M芯片性能测试:

DeepSeek-R1-Distill-Qwen-8B-GGUF 测试结果:

modelsizeparamsbackendthreadstestt/s
llama 8B Q2_K - Medium3.07 GiB8.03 BMetal,BLAS8pp512487.43 ± 0.24
llama 8B Q2_K - Medium3.07 GiB8.03 BMetal,BLAS8tg12849.33 ± 0.09

DeepSeek-R1-Distill-Qwen-14B-GGUF 测试结果:

modelsizeparamsbackendthreadstestt/s
qwen2 14B Q2_K - Medium5.37 GiB14.77 BMetal,BLAS8pp512257.18 ± 0.12
qwen2 14B Q2_K - Medium5.37 GiB14.77 BMetal,BLAS8tg12827.45 ± 0.10

DeepSeek-R1-Distill-Qwen-32B-GGUF 测试结果:

modelsizeparamsbackendthreadstestt/s
qwen2 32B IQ2_XXS - 2.0625 bpw8.40 GiB32.76 BMetal,BLAS8pp51299.51 ± 0.15
qwen2 32B IQ2_XXS - 2.0625 bpw8.40 GiB32.76 BMetal,BLAS8tg12813.58 ± 0.01

DeepSeek-R1-Distill-Qwen-70B-GGUF 测试结果:

ModelSizeParamsBackendThreadsTestt/s
LLaMA 70B Q2_K - Medium24.79 GiB70.55 BMetal,BLAS8pp5126.3 ± 0.08
LLaMA 70B Q2_K - Medium24.79 GiB70.55 BMetal,BLAS8tg12800.00 ± 0.00

Ubuntu 22.04 性能测试:

DeepSeek-R1-Distill-Qwen-8B-GGUF 测试结果:

ModelSizeParamsBackendNGLTestT/s
llama 8B Q2_K - Medium3.07 GiB8.03 BCUDA99pp5124371.47 ± 8.21
llama 8B Q2_K - Medium3.07 GiB8.03 BCUDA99tg128122.44 ± 0.09

DeepSeek-R1-Distill-Qwen-14B-GGUF 测试结果:

ModelSizeParamsBackendNGLTestT/s
qwen2 14B Q2_K - Medium5.37 GiB14.77 BCUDA99pp5122411.33 ± 6.56
qwen2 14B Q2_K - Medium5.37 GiB14.77 BCUDA99tg12867.53 ± 0.15

DeepSeek-R1-Distill-Qwen-32B-GGUF 测试结果: 

ModelSizeParamsBackendNGLTestT/s
qwen2 32B IQ2_XXS - 2.0625 bpw8.40 GiB32.76 BCUDA99pp5121204.93 ± 83.32
qwen2 32B IQ2_XXS - 2.0625 bpw8.40 GiB32.76 BCUDA99tg12841.92 ± 0.17

DeepSeek-R1-Distill-Qwen-70B-GGUF 测试结果:

ModelSizeParamsBackendNGLTestT/s
llama 70B Q2_K - Medium24.79 GiB70.55 BCUDA99pp51237.18 ± 0.16
llama 70B Q2_K - Medium24.79 GiB70.55 BCUDA99tg1281.31 ± 0.00

参数解释:

标题解释
模型 (Model)使用的模型名称和版本
大小 (Size)模型的内存占用,单位是GiB (Gibibytes)
参数 (Params)模型的参数数量,单位是B (Billion)
后端 (Backend)模型运行所使用的计算后端 (例如Metal, BLAS)
线程 (Threads)使用的线程数量
GPU数量(NGL)Number of GPU Layer,分给GPU的层数用来计算
测试 (Test)

运行测试的类型,例如pp512 (测试512 token)或tg128 (测试128 token)

pp512: Prompt Processing 处理512 token提示词

tg128: Text Generation 生成长度为128 token文本

每秒处理标记数 (t/s)每秒处理的token数量 (tokens per second)

测试结果:

在两台机器上,DeepSeek-R1-Distill-Qwen-8B,14B, 32B 都可以正常使用,通过 T/s  结果可以看出来,只有70B 在两台机器上虽然可以运行,但根本无法使用。大家根据自己的机器配置,选择合适的模型。

模型资源下载地址:

DeepSeek-R1-Distill-Llama-8B

DeepSeek-R1-Distill-Qwen-14B

DeepSeek-R1-Distill-Qwen-32B

DeepSeek-R1-Distill-Llama-70B

测试项目llama.cpp

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值