1张Nvidia A100 80G部署Lamma3 70b 4bit的性能测试


本文主要是个人学习记录,请见谅不够详细和错字

硬件

1张Nvidia A100 80G

部署模型

Lamma3.1 70b 4bit
4bit是指quantization,4bit是最小的(代表精度最低(模型大小最小),但性能最好,ollama只支持4bit)。我在ollama官网没看到是用的那个版本的4bit,llama官网也没看见不同quantization版本,所以我不确定Llama官方是否提供了不同quantization版本(知道的麻烦告知下)

硬件性能监控工具

GPU监控工具

  • 开源可视化工具nvitop
    安装命令:pip install nvitop
    运行命令:nvitop
    在这里插入图片描述* Nvidia自带监控
    watch -n 1 nvidia-smi

CPU和系统内存监控工具

Linux的top命令(top后再按1,可以查看多核cpu每个核心的占用)

部署框架

https://github.com/ollama/ollama

命令

ollama pull llama3.1:70b
ollama run llama3.1:70b

测试脚本与结果

本次测试的最重要的结果是平均每个线程的每秒token生成数(生成的总token数 / 响应总时间),因为chatgpt是流式生成token(感兴趣的可以看ChatGPT流式显示单词的技术实现 )的, 所以 tokens/second是直接影响用户体验的数据,衡量了llm的文字生成速度(一个token约等于一个文字)

输出定量token测试

prompt

tell a story in " + str(world_count) + " words:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值