一文搞懂大模型推理（FastAPI）

最新推荐文章于 2025-05-01 14:50:00 发布

大模型_

最新推荐文章于 2025-05-01 14:50:00 发布

阅读量572

点赞数 10

文章标签： fastapi 人工智能大数据深度学习开源 langchain 大模型

本文链接：https://blog.csdn.net/2301_76168381/article/details/147617179

版权

在大模型（如GPT、Qwen、DeepSeek等）的推理场景中，FastAPI 是一个高效、轻量级的Python Web框架，专为构建高性能API设计。它结合了异步编程（async/await）、自动数据验证（基于Pydantic）和强大的依赖注入系统，非常适合处理高并发的大模型推理任务。

一、FastAPI

什么是FastAPI？FastAPI 是一个现代的、快速（高性能）的 Web 框架，专为构建基于 Python 的 API 服务而设计。

FastAPI结合了异步编程、自动数据验证和类型安全的特性，使得开发高性能、可扩展的 API 变得简单高效。

构建 RESTful API：适合开发需要高性能和类型安全的 API 服务。
微服务架构：作为微服务的一部分，提供高效的接口。
机器学习推理服务：结合大模型（如 Hugging Face Transformers）构建推理 API。
实时数据流：通过 WebSocket 或 SSE 实现实时数据推送。

FastAPI

为什么选择FastAPI构建推理服务？FastAPI 是一个基于 Python 的现代 Web 框架，专为构建高性能 API 而设计。以下是选择 FastAPI 构建推理服务的核心原因：

1. 极致性能：异步 + 高并发

异步非阻塞 IO： FastAPI 基于 Starlette 和 Pydantic，原生支持异步编程（async/await），能高效处理大量并发请求，避免线程阻塞。
示例： 推理服务需同时响应多个用户请求（如智能客服），FastAPI 的异步特性可显著降低延迟。
性能对比： 在基准测试中，FastAPI 的性能接近（甚至超过）Node.js 和 Go，远超传统同步框架（如 Flask、Django）。

2. 开发效率：类型安全 + 自动文档

类型安全：FastAPI 强制使用 Python 类型注解（Type Hints），减少因参数错误导致的运行时崩溃。
自动生成交互式文档： FastAPI 自动生成 Swagger UI 和 ReDoc 文档，便于前后端联调和测试。FastAPI 可直接调用 PyTorch、TensorFlow 等深度学习模型，适合推理场景。

3. 生态兼容：深度学习框架无缝集成

与 PyTorch/TensorFlow 无缝对接： FastAPI 可直接调用 PyTorch、TensorFlow 等深度学习模型，适合推理场景。
示例：使用 transformers 加载模型，通过 FastAPI 提供推理接口。
支持 GPU 加速： FastAPI 可与 CUDA 无缝协作，充分利用 GPU 提升推理速度。

FastAPI Tutorial: Build APIs with Python in Minutes - KDnuggets

二、推理服务

为什么需要推理服务（Inference Service）？推理服务是深度学习模型从训练阶段进入生产环境的关键桥梁，其核心价值在于将训练好的模型转化为实际可用的应用能力。

训练阶段： 模型在离线环境中，依赖大量计算资源（如 GPU 集群）进行参数优化，关注模型性能指标（如准确率、损失值）。
推理阶段： 模型需在生产环境中实时响应用户请求，关注低延迟、高吞吐量、资源利用率，且需适应动态变化的输入数据。

使用框架（如 FastAPI、Flask）将本地部署模型封装为 RESTful API，提供推理服务。

from fastapi import FastAPI, HTTPException
from pydantic import BaseModelfrom trans
formers import pipeline
# 初始化FastAPI应用
app = FastAPI(title="大模型推理服务", description="基于FastAPI和Hugging Face Transformers")
# 加载预训练模型（例如文本生成模型）
model = pipeline("text-generation", model="DeepSeek-R1")
# 定义请求体模型
class TextInput(BaseModel):   
 prompt: str    
 max_length: int = 50    
 num_return_sequences: int = 1
# 定义推理接口
@app.post("/predict")
async def predict(input: TextInput): 
   try:        
   # 调用模型进行推理        
   result = model(input.prompt, max_length=input.max_length, num_return_sequences=input.num_return_sequences)       
    return {"output": result[0]['generated_text']}    
except Exception as e:    
    raise HTTPException(status_code=500, detail=str(e))

FastAPI如何构建大模型推理服务？FastAPI 通过封装预训练大模型（如 GPT、DeepSeek 等）为可复用类，结合异步接口处理用户请求，利用 uvicorn 启动高性能 ASGI 服务，实现快速构建大模型推理服务。

1. 环境准备

安装依赖： f astapi（核心框架）、uvicorn（ASGI 服务器，用于运行 FastAPI 应用）、transformers（Hugging Face 提供的模型加载工具）、torch（PyTorch 深度学习框架）

pip install fastapi uvicorn transformers torch

模型选择：选择适合任务的大模型（如GPT、Qwen、DeepSeek等），从 Hugging Face 模型库下载或加载本地模型。

2. 模型加载与封装

加载模型：使用 transformers 加载预训练模型，并将其封装为可复用的类或函数。

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
class LargeModel:
    def __init__(self, model_name="DeepSeek-R1"):        
       self.tokenizer = AutoTokenizer.from_pretrained(model_name)        
       self.model = AutoModelForCausalLM.from_pretrained(model_name).to("cuda" if torch.cuda.is_available() else "cpu")    
def generate_response(self, prompt, max_length=50):  
      inputs = self.tokenizer(prompt, return_tensors="pt").to(self.model.device)        
      outputs = self.model.generate(inputs["input_ids"], max_length=max_length)        
      return self.tokenizer.decode(outputs[0], skip_special_tokens=True)

3. 构建 FastAPI 应用

初始化应用：

from fastapi import FastAPI, HTTPException
app = FastAPI()
model = LargeModel()  # 初始化模型实例

定义推理接口：创建一个 POST 接口，接收用户输入并返回模型推理结果。

@app.post("/generate/")
async def generate_text(prompt: str, max_length: int = 50):  
  if not prompt.strip():     
     raise HTTPException(status_code=400, detail="Prompt cannot be empty")  
  try:     
     response = model.generate_response(prompt, max_length=max_length)     
        return {"response": response}   
 except Exception as e:      
   raise HTTPException(status_code=500, detail=str(e))

4. 启动服务

使用 uvicorn 启动 FastAPI 应用：my_app是包含上述代码的 Python 文件名（不含 .py 后缀），–reload 启用自动重载（开发环境使用）。

uvicorn my_app:app --host 0.0.0.0 --port 8000 --reload

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！