TensorRT-LLM 项目推荐

TensorRT-LLM 项目推荐

TensorRT-LLM TensorRT-LLM provides users with an easy-to-use Python API to define Large Language Models (LLMs) and build TensorRT engines that contain state-of-the-art optimizations to perform inference efficiently on NVIDIA GPUs. TensorRT-LLM also contains components to create Python and C++ runtimes that execute those TensorRT engines. TensorRT-LLM 项目地址: https://gitcode.com/gh_mirrors/te/TensorRT-LLM

1. 项目基础介绍和主要编程语言

TensorRT-LLM 是由 NVIDIA 开发的一个开源项目,旨在为大型语言模型(LLMs)提供优化的推理性能。该项目主要使用 Python 和 C++ 进行开发。TensorRT-LLM 提供了一个易于使用的 Python API,用于定义和构建包含最先进优化技术的 TensorRT 引擎,以在 NVIDIA GPU 上高效执行推理任务。

2. 项目核心功能

TensorRT-LLM 的核心功能包括:

  • 优化推理性能:通过自定义注意力内核、飞行中批处理、分页 KV 缓存、量化(FP8、INT4 AWQ、INT8 SmoothQuant 等)等技术,显著提升大型语言模型在 NVIDIA GPU 上的推理效率。
  • Python API:提供一个易于使用的 Python API,用于构建和优化 TensorRT 引擎。
  • C++ 运行时:包含 C++ 运行时组件,用于执行优化后的 TensorRT 引擎。
  • 多 GPU 和多节点支持:支持从单个 GPU 到多节点多 GPU 的配置,使用张量并行和流水线并行技术。
  • 预定义模型:包含多个流行的预定义模型,用户可以轻松修改和扩展以满足自定义需求。

3. 项目最近更新的功能

TensorRT-LLM 最近更新的功能包括:

  • 2024/09/04:最佳实践指南,用于使用 BentoML 调优 TensorRT-LLM 以实现最佳服务性能。
  • 2024/08/20:支持 SDXL 模型优化,包括缓存扩散、量化感知训练和 QLoRA。
  • 2024/08/13:DIY 代码补全功能,使用 Mamba 和 TensorRT-LLM 加速推理,并支持在任何地方部署。
  • 2024/08/06:支持多语言挑战,提升低资源语言(如希伯来语、印尼语和越南语)的性能。
  • 2024/07/30:引入 SliceXAI ELM Turbo,支持一次训练、多次优化和部署。
  • 2024/07/23:支持 Meta 的 Llama 3 模型,优化推理性能,提升吞吐量。
  • 2024/07/09:多语言性能优化检查清单,用于最大化 Meta Llama 3 的多语言性能。
  • 2024/07/02:支持 MistralAI 的 Mixtral 8x7B 模型,在 H100 GPU 上实现高性能。
  • 2024/06/24:支持 Upstage AI 的 solar-10.7B-instruct 模型,通过 API 目录提供服务。
  • 2024/06/18:Stable Diffusion 3 的加速指南,使用 TensorRT INT8 量化技术。
  • 2024/06/18:ComfyUI 与 TensorRT 的部署指南。
  • 2024/06/11:TensorRT 权重剥离引擎的技术深入探讨,实现高压缩率和性能优化。
  • 2024/06/04:TensorRT 和 GeForce RTX 解锁 ComfyUI SD 超级英雄能力,提供演示和 DIY 笔记本。

这些更新进一步增强了 TensorRT-LLM 的功能和性能,使其成为在 NVIDIA GPU 上优化大型语言模型推理的强大工具。

TensorRT-LLM TensorRT-LLM provides users with an easy-to-use Python API to define Large Language Models (LLMs) and build TensorRT engines that contain state-of-the-art optimizations to perform inference efficiently on NVIDIA GPUs. TensorRT-LLM also contains components to create Python and C++ runtimes that execute those TensorRT engines. TensorRT-LLM 项目地址: https://gitcode.com/gh_mirrors/te/TensorRT-LLM

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

郁垒欣Sadie

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值