VLLM
vLLM使用了PageAttention技术,对模型推理进行加速。 在注意力机制中,每个token有KEY, VALUE两个张量,这两个张量在存储分配显存的时候,预留出大量的空间,导致碎片化的浪费,VLLM通过借鉴操作系统的分页思想,隔离物理和逻辑内存,中间记录处理内存地址,从而降低内存的占用,提高了batch_zize, 吞吐量。
vLLM使用了PageAttention技术,对模型推理进行加速。 在注意力机制中,每个token有KEY, VALUE两个张量,这两个张量在存储分配显存的时候,预留出大量的空间,导致碎片化的浪费,VLLM通过借鉴操作系统的分页思想,隔离物理和逻辑内存,中间记录处理内存地址,从而降低内存的占用,提高了batch_zize, 吞吐量。