AllenLearner-CSDN博客

原创【大语言模型加速实战】使用vLLM加速Qwen2-7B模型推理

vLLM是一种应用于大语言模型（Large Language Model, LLM）的推理和服务引擎，具有高吞吐量、内存高效的特点。本文以Qwen2-7B为例，使用vLLM加速LLM推理过程。

2024-10-13 17:36:47 1689

原创【大语言模型基础知识】模型名称解读

GPT生成统一格式 (GPT-Generated Unified Format, GGUF) 是一种大语言模型文件格式。从本质上而言，.gguf是一种二进制格式文件的规范。GGUF采用多种技术 (如紧凑的二进制编码格式、优化的数据结构、内存映射等) 保存大模型预训练结果，从而。开放神经网络交换 (Open Neural Network Exchange, ONNX) 是一种文件格式，能够。，其一致性接口能够更加便捷地部署至不同的设备。未经特定任务微调的基础预训练模型。加速模型载入，降低资源消耗。

2024-10-10 21:50:03 831

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 【大语言模型加速实战】使用vLLM加速Qwen2-7B模型推理

原创 【大语言模型基础知识】模型名称解读

空空如也

空空如也

原创【大语言模型加速实战】使用vLLM加速Qwen2-7B模型推理

原创【大语言模型基础知识】模型名称解读