VLLM 测试 Mixtral MoE 的 GPTQ 量化版本

这里是 VLLM 测试 Mixtral MoE 的 GPTQ 量化版本 的笔记哦。

主要命令

  1. 安装 huggingface_hub: pip install huggingface_hub -U
  2. 下载模型 huggingface-cli download TheBloke/Mixtral-8x7B-Instruct-v0.1-GPTQ --local-dir Mixtral-8x7B-Instruct-v0.1-GPTQ --local-dir-use-symlinks=False
  3. 上传模型: rsync -avPr -e "ssh -p 36189" Mixtral-GPTQ root@abc.seedcloud.com:autodl-fs/
  4. 安装 vllm: pip install vllm
  5. 执行 benchmark: python benchmark_throughput.py --model ~/autodl-fs/Mixtral-8x7B-Instruct-v0.1-GPTQ --backend vllm --input-len 128 --output-len 512 --quantization gptq --num-prompts 50 --seed 1100 --dtype float16

相关链接

  1. https://github.com/vllm-project/vllm
  2. https://docs.vllm.ai/en/latest/
  3. https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GPTQ

其他

rsync 命令参数解释

rsync -avPr -e "ssh -p 36189" Mixtral-GPTQ root@abc.seedcloud.com:autodl-fs/

这条 rsync 命令用于同步文件和目录,并通过 SSH 进行安全传输。下面是命令的各个部分的简要介绍:

  1. rsync:这是主命令,用于文件和目录的同步。

  2. -avPr:这是一系列选项的组合。

    • -a(archive):保留文件属性,并递归复制目录。
    • -v(verbose):显示详细的过程信息。
    • -P:等同于 --partial --progress,在中断后允许部分传输,并显示传输进度。
    • -r(recursive):递归复制所有子目录和文件。
  3. -e "ssh -p 36189":这指定了远程shell使用 SSH,并设置了自定义端口 36189。

  4. Mixtral-GPTQ:这是源目录或文件的名称。

  5. root@abc.seedcloud.com:autodl-fs/:这是目标位置,格式为 用户名@主机:目标目录。在这里,它表示以 root 用户身份连接到 abc.seedcloud.com 服务器上的 autodl-fs 目录。

综上所述,这个命令将 Mixtral-GPTQ 目录(或文件)同步到远程服务器 abc.seedcloud.com 上的 autodl-fs 目录中,使用 SSH 进行安全连接,并在端口 36189 上操作。同时,它保留了文件的属性,允许中断后继续传输,并显示详细的同步进度。

vllm benchmark 命令参数解释

python benchmark_throughput.py \
	--model ~/autodl-fs/Mixtral-8x7B-Instruct-v0.1-GPTQ \
	--backend vllm \
	--input-len 128 \
	--output-len 512 \
	--quantization gptq \
	--num-prompts 50 \
	--seed 1100 \
	--dtype float16

这个命令是用于测试一个名为 Mixtral-8x7B-Instruct-v0.1-GPTQ 的模型的性能。它使用了 vllm 后端,并且涉及到一些关键参数的设置,我会简要解释每个参数:

  1. --model ~/autodl-fs/Mixtral-8x7B-Instruct-v0.1-GPTQ: 指定要测试的模型路径和名称。
  2. --backend vllm: 使用 vllm 作为后端。
  3. --input-len 128: 设置输入长度为 128 个单位。
  4. --output-len 512: 设置输出长度为 512 个单位。
  5. --quantization gptq: 应用 gptq 量化方法,这可能与模型的性能优化有关。
  6. --num-prompts 50: 测试将会使用 50 个提示。
  7. --seed 1100: 设置随机种子为 1100,以确保实验可重复性。
  8. --dtype float16: 使用 float16 数据类型,这是一种精度较低但计算效率更高的数据类型。

--input-len 的大小会直接影响最终的性能表现,比如你可以用 32 而不是 128 看看效果。

  • 9
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值