1张Nvidia A100 80G部署Lamma3 70b 4bit的性能测试

码届小王

已于 2024-08-14 11:24:11 修改

阅读量2.3k

点赞数 24

分类专栏： AI学习笔记文章标签： llama gpu算力 gpt

于 2024-08-13 18:08:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26843937/article/details/141169523

版权

本文主要是个人学习记录，请见谅不够详细和错字

硬件

1张Nvidia A100 80G

部署模型

Lamma3.1 70b 4bit
4bit是指quantization，4bit是最小的（代表精度最低（模型大小最小），但性能最好，ollama只支持4bit）。我在ollama官网没看到是用的那个版本的4bit，llama官网也没看见不同quantization版本，所以我不确定Llama官方是否提供了不同quantization版本（知道的麻烦告知下）

硬件性能监控工具

GPU监控工具

开源可视化工具nvitop
安装命令：pip install nvitop
运行命令：nvitop
* Nvidia自带监控
watch -n 1 nvidia-smi

CPU和系统内存监控工具

Linux的top命令（top后再按1，可以查看多核cpu每个核心的占用）

部署框架

https://github.com/ollama/ollama

命令

ollama pull llama3.1:70b

ollama run llama3.1:70b

测试脚本与结果

本次测试的最重要的结果是平均每个线程的每秒token生成数（生成的总token数 / 响应总时间），因为chatgpt是流式生成token（感兴趣的可以看ChatGPT流式显示单词的技术实现）的, 所以 tokens/second是直接影响用户体验的数据，衡量了llm的文字生成速度（一个token约等于一个文字）

输出定量token测试

prompt

tell a story in " + str(world_count) + " words:

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。