这里写自定义目录标题
本文主要是个人学习记录,请见谅不够详细和错字
硬件
1张Nvidia A100 80G
部署模型
Lamma3.1 70b 4bit
4bit是指quantization,4bit是最小的(代表精度最低(模型大小最小),但性能最好,ollama只支持4bit)。我在ollama官网没看到是用的那个版本的4bit,llama官网也没看见不同quantization版本,所以我不确定Llama官方是否提供了不同quantization版本(知道的麻烦告知下)
硬件性能监控工具
GPU监控工具
- 开源可视化工具nvitop
安装命令:pip install nvitop
运行命令:nvitop
* Nvidia自带监控
watch -n 1 nvidia-smi
CPU和系统内存监控工具
Linux的top命令(top后再按1,可以查看多核cpu每个核心的占用)
部署框架
https://github.com/ollama/ollama
命令
ollama pull llama3.1:70b
ollama run llama3.1:70b
测试脚本与结果
本次测试的最重要的结果是平均每个线程的每秒token生成数(生成的总token数 / 响应总时间),因为chatgpt是流式生成token(感兴趣的可以看ChatGPT流式显示单词的技术实现 )的, 所以 tokens/second是直接影响用户体验的数据,衡量了llm的文字生成速度(一个token约等于一个文字)
输出定量token测试
prompt
tell a story in " + str(world_count) + " words: