最近准备用Triton Inference Server部署llama3大模型,苦于资料很少,听了多次NVIDIA的课程,查阅了很多中英文资料,经过多次尝试,终于大告成功。
环境: RHEL9 NVIDIA Tesla V100
1、 Huggingface 下载好hf模型保存到 ,假设保存在/data下
2、下载triton inference server镜像, 保存在本地,以后每次启动不用pull
docker pull nvcr.io/nvidia/tritonserver:24.07-trtllm-python-py3
镜像中包含了TensorRT-LLM和TensorRT,不需要单独创建docker并安装TensorRT-LLM,比如:
3、 进入Docker, $(pwd)=/data, 后面的操作都在/data下进行
docker run --rm -it --net host --gpus all \
--shm-size=2g --ulimit memlock=-1 --ulimit stack=67108864 \
-v $(pwd):/data--workdir /data \
nvcr.io/nvidia/tritonserver:24.07-trtllm-python-py3
镜像中包含了TensorRT-LLM和Tenso