基于TensorRT-LLM的Yuan 2.0推理服务部署
自Yuan2.0大模型发布以来,团队一直致力于提高大模型的性能和效率。最近我们完成了基于TensorRT-LLM推理框架的Yuan2.0大模型部署实践,一起来尝试一下吧!TensorRT-LLM是2023年10月新发布的大模型推理部署框架,用其部署Yuan2.0大模型一方面可以显著提高模型推理速度和减少延时,让用户可以更快的获取推理结果;另一方面,利用TensorRT-LLM灵活的插件功能,使得用户在部署Yuan2.0时更有效的利用硬件资源从而节省硬件成本。
原创
2024-02-28 12:08:23 ·
1203 阅读 ·
0 评论