在当前大语言模型(LLM)蓬勃发展的时代,如何有效地利用和部署这些模型成为了许多开发者和研究者关注的焦点。在之前的《基于Transformer框架实现微调后Qwen/DeepSeek模型的非流式批量推理》与《基于Transformer框架实现微调后Qwen/DeepSeek模型的流式推理并封装成接口》这两篇借助transformer库实现推理的基础上,本文将详细介绍如何基于Xinference框架来实现微调后Qwen/DeepSeek模型的推理,包括了流式与非流式两种推理方式的实现及其应用场景。
基于Xinference框架实现微调后Qwen/DeepSeek模型的流式与非流式批量推理
于 2025-04-05 10:27:05 首次发布