大模型推理加速开源框架简介

1. FasterTransformer(FT)

简介:NVIDIA推出的用于实现基于Transformer的神经网络加速引擎,包含Transformer块的高度优化版本的实现,其中包含编码器和解码器部分,可用于编码器-解码器架构模型(T5)、仅编码器架构(BERT)和仅解码器架构模型(GPT)的推理。FT基于C++/CUDA编写,依赖多个优化库。目前,FT支持Megatron-LM GPT-3、GPT-J、BERT、ViT、Swin Transformer、Longformer、T5 和 XLNet 等模型,适用于V100、A10、A100等GPU,其支持矩阵可以从https://github.com/NVIDIA/FasterTransformer#support-matrix查看。详细的使用方法介绍可以从相应的网站获得。
特点:支持多个LLM,配置过程相对较简单,先安装FT相应的环境,然后下载对应模型的参数,将其转换为FT格式,即可进行加速。配置推理加速环境教程可参考https://zhuanlan.zhihu.com/p/626008090

2. FlexFlow-Serve

简介:一个开源编译器和分布式系统,用于低延迟、高性能LLM服务。支持投机推理、Offloading技术支持单GPU运行大模型(LLaMA-7B)、支持量化(int4和int8)。支持以下架构的所有Huggingface模型,如LLaMA/2,Guanaco,Vicuna,Alpaca等,OPT家族模型,Falcon家族模型等。项目网址https://github.com/flexflow/FlexFlow
特点:pip安装或docker安装,可直接配置加速参数,调用其支持的模型进行加速推理.详细操作教程可见https://github.com/flexflow/FlexFlow

3. vLLM

简介: 开源的大模型推理加速框架,通过PageAttention高效管理KV缓存,支持连续批次,支持张量并行,支持流式输出,兼容OpenAI的接口服务,与HuggingFace模型无缝集成,不需要对模型结构进行任何改变.项目网站: https://github.com/vllm-project/vllm.
特点: pip安装,配置过程及支持模型列表可参考https://github.com/vllm-project/vllm.

4. FlexGen

简介: 核心思想是设计了一种包含offloading策略和压缩方案,在单个消费级GPU上对大模型实现高吞吐的推理,CPU主存+磁盘外存+GPU显存的使用进行全局调度优化,但由于硬件限制无法实现低延时.项目网站: https://pypi.org/project/flexgen/.
特点: 可以通过pip安装,侧重于在单机上运行LLM,配置过程参见: https://pypi.org/project/flexgen/.

5. TGI(Text Generation Inference)

简介: 作为支持HuggingFace Inference API和Hugging Chat上的LLM推理工具,旨在支持LLM的推理优化.支持张量并行,连续批次,flash-attention和PageAttention等技术.项目地址: https://github.com/huggingface/text-generation-inference.
特点:支持BLOOM,LLaMA,OPT,GPT-Neox,Falcon等多个常见的大模型,配置详见https://github.com/huggingface/text-generation-inference.

6. DeepSpeed-MII

简介: DeepSpeed的新开源python库,旨在提供低延迟,低成本的推理服务.其提供了对数千种广泛使用的深度学习模型的高度优化实现,根植于DeepSpeed-Inference的一系列广泛优化. 项目地址https://github.com/microsoft/DeepSpeed-MII.
特点: pip安装,仅需几行代码即可部署,支持模型列表及配置详见https://github.com/microsoft/DeepSpeed-MII.
2.6.7 ZeRO-Inference
简介: 基于DeepSpeed的推理加速技术,项目地址: https://github.com/microsoft/DeepSpeedExamples/blob/master/inference/huggingface/zero_inference/README.md.
特点: 支持多个模型,可快速配置,配置教程详见项目地址.
2.6.8 Light-LLM
简介: 基于Pytorch的LLM推理和服务框架,具有轻量级设计,易于扩展和高性能等优点,它利用了前述多个开源框架的优势,支持动态批次,内存优化,张量并行,量化缓存等优化技术.项目地址: https://github.com/ModelTC/lightllm.
特点: 可以通过安装依赖的方式或者拉取Dockers的方式进行快速配置,支持模型列表详见项目网站介绍.
2.6.9 TensorRT-LLM
简介: 用于在NVIDIA GPU平台进行大模型推理部署工作.支持模型架构定义,预训练权重编译,推理加速,自带主流的预定义热门LLM,包括Baichuan,LLaMA,ChatGLM,BLOOM,GPT等.项目地址: https://github.com/NVIDIA/TensorRT-LLM.
特点: 详细配置教程可参见项目网站介绍.

  • 13
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值