Triton Inference Server部署Meta-Llama-3-8B-Instruct大模型TensorRT-LLM量化后端服务详细命令和代码

最近准备用Triton Inference Server部署llama3大模型,苦于资料很少,听了多次NVIDIA的课程,查阅了很多中英文资料,经过多次尝试,终于大告成功。

环境: RHEL9    NVIDIA Tesla V100

1、 Huggingface 下载好hf模型保存到 ,假设保存在/data下

2、下载triton inference server镜像, 保存在本地,以后每次启动不用pull

 docker pull nvcr.io/nvidia/tritonserver:24.07-trtllm-python-py3

镜像中包含了TensorRT-LLM和TensorRT,不需要单独创建docker并安装TensorRT-LLM,比如:

3、 进入Docker, $(pwd)=/data, 后面的操作都在/data下进行

docker run --rm -it --net host --gpus all \

  --shm-size=2g --ulimit memlock=-1 --ulimit stack=67108864 \

  -v $(pwd):/data--workdir /data \

  nvcr.io/nvidia/tritonserver:24.07-trtllm-python-py3

镜像中包含了TensorRT-LLM和Tenso

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值