一、前言
在推理模型的应用浪潮中,我们不仅关注模型给出的最终答案,更渴望了解答案背后的推理逻辑。vLLM 为推理模型提供了强大的支持,比如 DeepSeek R1 系列模型,不仅能给出最终结论,还能展示推理的步骤。
本文将带你探讨如何使用 vLLM 清晰呈现推理过程。
二、术语
2.1. Docker
是一个开源的容器化平台,允许开发者将应用及其依赖打包成轻量级、可移植的容器。这些容器可以在任何支持 Docker 的环境中运行,从而确保应用在不同环境中的一致性。Docker 提供了简化的开发、测试和部署流程,使得应用的交付更加高效和灵活,同时也支持微服务架构的实现。通过隔离和资源管理,Docker 使得应用的扩展和维护变得更加便捷。
2.2. vLLM
vLLM是一个开源的大模型推理加速框架,通过PagedAttention高效地管理attention中缓存的张量,实现了比HuggingFace Transformers高14-24倍的吞吐量。
2.3. DeepSeek-R1-Distill-Qwen-7B
是一个由DeepSeek开发的模型,它是通过蒸馏技术将Qwen-7B大型模型的一部分知识精华提取出