第二十八篇-Ollama-TeslaP40-Ollama-8B-Qwen1.5-32B等速度

木卫二号Coding

已于 2024-05-01 10:35:50 修改

阅读量457

点赞数 12

分类专栏： AI-LLM-实战文章标签：人工智能 llama chatgpt

于 2024-04-27 14:50:20 首次发布

本文链接：https://blog.csdn.net/hai4321/article/details/138249691

版权

AI-LLM-实战专栏收录该内容

28 篇文章 6 订阅

订阅专栏

环境

系统：CentOS-7
CPU: 14C28T
内存：32G
显卡：Tesla P40 24G
驱动: 515
CUDA: 11.7
cuDNN: 8.9.2.26
Ollama:v0.1.32

标准洋垃圾

执行命令

ollama run xxxx:latest --verbose

--verbose 带指标的运行

问题

1.你好（预热）
2.请写一篇200字的关于山的散文
3.请写一篇200字的关于水的散文
4.请写一篇200字的关于大海的散文

2.3.4 随机一次

模型列表

[root@ai-server ollama]# ollama list
NAME                            ID              SIZE    MODIFIED      
gemma:2b                        b50d6c999e59    1.7 GB  2 days ago   
internlm2:latest                46cde8aad8ff    4.7 GB  3 days ago   
llama-3-8b-instruct:latest               a33dde62027d    4.9 GB  6 minutes ago
mistral-7b:latest               fe7ebabb08f5    4.1 GB  2 days ago   
mixtral-7_8b:latest             7b96df9a349a    26 GB   2 days ago   
qweb-14b:latest                 6137264107d3    9.4 GB  2 days ago   
qwen:0.5b-chat-v1.5-q4_K_M      e1c9c6192a7e    407 MB  2 days ago   
qwen1.5-14b:latest              3cc8bb79440c    9.2 GB  2 days ago   
qwen1.5-32b:latest              96743882fd6d    19 GB   6 hours ago  
qwen1.5-72b-q2:latest           ac5b2e824d5c    28 GB   6 hours ago  
qwen1.5-moe:latest              b3247e5069ed    10 GB   2 days ago 
qwen1.5-72b-q4:latest           d75c886d84d2    44 GB   11 minutes ago
qwen1.5-7b:latest               f1d5d49ce7d4    4.8 GB  24 seconds ago

自己模型列表，本地gguf文件加载，非直接ollama下载

llama-3-8b

命令
    ollama run llama-3-8b-instruct:latest --verbose

CPU 
    100% 很低 28T
内存
    忽略
GPU
     | N/A   41C    P0             152W / 250W |   5172MiB / 23040MiB |     86%      Default |

速度指标
	total duration:       9.496914834s
	load duration:        1.785266ms
	prompt eval count:    231 token(s)
	prompt eval duration: 426.264ms
	prompt eval rate:     541.92 tokens/s
	eval count:           264 token(s)
	eval duration:        8.766519s
	eval rate:            30.11 tokens/s

速度很快，很快，Tesla P40 可以哇,只是llama-3-8b中文支持不好，他使用英文回答，提示词强调使用中文回答，也是中英混合

qwen1.5-7b

命令
    ollama run qwen1.5-7b:latest --verbose

CPU 
    100% 很低 28T
内存
    忽略
GPU
      | N/A   40C    P0             157W / 250W |   5802MiB / 23040MiB |     86%      Default |

速度指标
	total duration:       4.688033303s
	load duration:        1.590795ms
	prompt eval count:    20 token(s)
	prompt eval duration: 124.73ms
	prompt eval rate:     160.35 tokens/s
	eval count:           137 token(s)
	eval duration:        4.312253s
	eval rate:            31.77 tokens/s

速度很快，很快，Tesla P40 可以哇

qwen1.5-14b

命令
    ollama run qwen1.5-14b:latest --verbose

CPU 
    100% 很低 28T
内存
    忽略
GPU
    | N/A   46C    P0             162W / 250W |  10518MiB / 23040MiB |     91%      Default |

速度指标
    total duration:       8.553113606s
    load duration:        1.596673ms
    prompt eval count:    22 token(s)
    prompt eval duration: 220.577ms
    prompt eval rate:     99.74 tokens/s
    eval count:           146 token(s)
    eval duration:        8.037546s
    eval rate:            18.16 tokens/s

速度可以，后面再试试问题质量如何，可以来做知识库回答，后面再试

qwen1.5-32b

命令
    ollama run qwen1.5-32b:latest --verbose

CPU 
    80% 很低 28T
内存
    忽略
GPU
    | N/A   46C    P0             174W / 250W |  19436MiB / 23040MiB |     97%      Default |

速度指标
    total duration:       20.167482245s
    load duration:        2.789556ms
    prompt eval count:    20 token(s)
    prompt eval duration: 470.535ms
    prompt eval rate:     42.50 tokens/s
    eval count:           177 token(s)
    eval duration:        19.48729s
    eval rate:            9.08 tokens/s

速度可以，后面再试试问题质量如何，可以用来回我复杂问题

qwen1.5-72b-q4

命令
    ollama run qwen1.5-72b-q4:latest --verbose

CPU 
    1400% 很高 28T
内存
    2G+
GPU
  | N/A   37C    P0              54W / 250W |  22122MiB / 23040MiB |      0%      Default | 
  GPU不进行推理计算，只占用显存

速度指标
	total duration:       2m32.683251597s
	load duration:        1.785367ms
	prompt eval count:    20 token(s)
	prompt eval duration: 7.080983s
	prompt eval rate:     2.82 tokens/s
	eval count:           160 token(s)
	eval duration:        2m25.349322s
	eval rate:            1.10 tokens/s

速度还是很慢的，1个字1个字的吐,只能用来简单跑跑玩玩

mixtral-7_8b

命令
    ollama run mixtral-7_8b:latest --verbose

CPU 
    800% 高 28T
内存
    5G+
GPU
  | N/A   38C    P0              83W / 250W |  22436MiB / 23040MiB |     39%      Default |
  GPU进行计算，CPU也进行计算

速度指标
	total duration:       39.457797756s
	load duration:        4.750232ms
	prompt eval count:    25 token(s)
	prompt eval duration: 1.046312s
	prompt eval rate:     23.89 tokens/s
	eval count:           397 token(s)
	eval duration:        38.10865s
	eval rate:            10.42 tokens/s

速度还是很不错的，只是他大多不用中文回答（提示词不强调中文回答）。

总结

Tesla-P40 还是挺令我惊讶的，14B模型速度还是非常好的，有机会大家可以用来试试
其他模型下载中。。。。