朱雀实验室协助vLLM修复CVSS 9.8分严重漏洞

腾讯安全应急响应中心

于 2025-05-22 11:24:00 发布

阅读量1.6k

点赞数 20

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/Tencent_SRC/article/details/148152476

作者：Kikay、Nicky
腾讯朱雀实验室发现vLLM推理框架存在严重安全漏洞（CVE-2025-47277，CVSS 9.8分），攻击者可利用此漏洞控制GPU服务器，窃取模型、算力或中断服务。vLLM团队已修复该漏洞并致谢腾讯朱雀实验室。

1. vLLM框架的重要性与安全挑战

vLLM是一个专为大型语言模型（LLM）推理设计的高性能框架，通过创新的内存管理和计算加速技术，显著提升吞吐量并降低延迟，特别适用于企业级高并发场景。作为一个社区驱动的开源项目，vLLM融合了学术界与工业界的智慧，在GitHub上收获了47K Star的关注度。目前，包括腾讯在内的众多企业广泛使用vLLM进行AI模型推理，其安全性直接关系到AI服务的稳定性和数据安全。

然而，vLLM的高普及度也使其成为攻击者的潜在目标。此前，vLLM曾曝光过两个位于MooncakePipe服务的严重漏洞。而本次由朱雀实验室发现的漏洞则存在于vLLM的PyNcclPipe服务中，攻击者可通过发送定制化的恶意数据包，远程获取GPU算力服务器控制权限，CVSS评分（通用漏洞评分系统，满分10分）高达9.8分。这一发现不仅揭示了新的安全风险，也为vLLM框架的漏洞研究提供了全新视角。

为保障混元大模型及相关AI软件供应链的安全，朱雀实验室近两年来已帮助腾讯业务提前发现与排雷了英伟达、Hugging Face和PyTorch等多个知名AI组件的严重漏洞风险，并推出了开源工具AI-Infra-Guard（ https://github.com/Tencent/AI-Infra-Guard ），帮助社区与腾讯业务快速评估AI基础设施的安全风险。

2. 漏洞原理与利用场景

vLLM作为当前最受欢迎的推理框架之一，支持单机多卡和多机多卡推理，以降低对显卡性能的需求。在处理分布式GPU节点间的张量通信时，vLLM可选使用NVIDIA的NCCL（NVIDIA Collective Communications Library）技术。NCCL专为分布式多GPU计算环境设计，通过高效的张量集合操作实现数据通信与同步。

在vLLM中，PyNcclPipe类负责构建支持NCCL的通信域，实现分布式GPU节点间的高效数据传输：

● GPU侧：通过PyNcclCommunicator类传输KV-Cache数据；

● CPU侧：通过send_obj和recv_obj方法处理控制消息。