【Hugging Face】TGI(Text Generation Inference):高性能大语言模型推理框架

Hugging Face TGI(Text Generation Inference)

Hugging Face TGI,全称 Text Generation Inference,是 Hugging Face 推出的 高性能大语言模型推理框架,专为 部署、服务和推理大语言模型(LLMs) 而优化,支持 多 GPU、推理加速、量化、并发访问、OpenAI API 接口 等功能。


1. TGI 是什么?

Hugging Face TGI 是一套用于 高性能推理大模型的后端服务器框架,主要用于将 Hugging Face 上的模型部署为可访问的 API 服务。

它为以下目标而设计:

  • 高效、低延迟的文本生成推理
  • 支持多种模型格式(如 transformersGGUFOptimum
  • 多用户并发
  • 可部署为本地服务或推送到 Hugging Face Spaces(如 ChatUI)

2. TGI 的核心特点

特性描述
多 GPU 支持使用 tensor parallelism 加速推理
模型热加载支持多模型快速切换部署
OpenAI API 兼容可替代 openai.ChatCompletion 接口
支持量化模型支持 bitsandbytesGPTQ
支持 Flash Attention提升推理速度
兼容 transformers 模型兼容所有 Hugging Face 上的生成模型
Token Streaming支持 token 逐步输出,低延迟
部署简便提供 Docker 镜像,开箱即用
支持 REST API / Websocket / CLI多方式接入服务

3. 安装方式

使用 Docker(推荐):

docker pull ghcr.io/huggingface/text-generation-inference:latest

4. 启动 TGI 示例

meta-llama/Llama-2-7b-hf 为例,运行服务:

docker run --gpus all --shm-size 1g --rm -p 8080:80 \
  -v $HOME/.cache/huggingface:/data \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id meta-llama/Llama-2-7b-hf \
  --port 80 \
  --quantize bitsandbytes

访问接口地址:http://localhost:8080/generate


5. 支持的模型类型

模型类别支持情况
LLaMA / LLaMA 2
Falcon
Mistral / Mixtral
BLOOM
GPT-NeoX / GPT-J
StarCoder
Baichuan
ChatGLM(部分支持)⬛(需改造)

支持所有 transformers 库中的自回归文本生成模型(AutoModelForCausalLM)。


6. API 示例调用方式

请求:

POST /generate

请求 JSON 格式

{
  "inputs": "What is Hugging Face?",
  "parameters": {
    "temperature": 0.7,
    "max_new_tokens": 100,
    "top_p": 0.9
  }
}

返回:

{
  "generated_text": "Hugging Face is a company specializing in AI and NLP models..."
}

7. 支持的高级推理功能

功能描述
temperature控制生成的随机性
top_p / top_k控制生成词汇的采样范围
max_new_tokens控制最大生成 token 数
repetition_penalty抑制重复生成
streaming实时输出每个 token
stop_sequences指定停止词,提前终止生成

8. OpenAI API 兼容层(可选)

如果你想将 Hugging Face 模型当成 OpenAI API 来使用,可以使用:

text-generation-openai \
  --model-url http://localhost:8080 \
  --host 0.0.0.0 \
  --port 8000

之后可通过 openai.ChatCompletion.create(...) 调用你本地的 Hugging Face 模型!


9. 与 transformers 的对比

维度transformers 推理TGI
部署效率需要写代码一条命令即可
多 GPU需手动并行化内置支持
并发服务不支持支持高并发 REST API
streaming不支持(默认)原生支持
OpenAI API 兼容
性能优化(Flash Attention)手动配置内置自动使用

10. 总结

项目描述
名称Text Generation Inference(TGI)
作用推理部署大语言模型的高性能后端
支持模型所有 transformers 的生成类模型
适合场景LLM 私有部署、低延迟服务、多用户访问、token 流式输出
推荐人群企业级 LLM 部署、研究人员、开源模型服务
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

彬彬侠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值