1. HuggingFace Transformers 格式(.bin
/ .safetensors
)
项目 | 说明 |
---|---|
用途 | 训练/推理通用格式 |
支持平台 | HuggingFace Transformers, vLLM, Text Generation Inference (TGI), DeepSpeed 等 |
优点 | ✅ 模型生态最丰富(LLaMA、Baichuan、ChatGLM 等) ✅ 支持训练+推理 ✅ 和 HuggingFace Hub 兼容好 ✅ .safetensors 更安全,支持 mmap 提升加载速度 |
缺点 | ❌ .bin 格式可能存在安全风险(Pickle 执行) ❌ 模型未压缩,占用显存大 ❌ 启动加载速度较慢,尤其是大型模型 |
推荐用途 | 主流模型训练、vLLM/TGI高性能推理部署、研究复现等 |
🧩 2. GGUF 格式(.gguf
,GGML 统一格式)
项目 | 说明 |
---|---|
用途 | 本地低资源环境的量化推理 |
支持平台 | llama.cpp、koboldcpp、LM Studio、Ollama、text-generation-webui、MLC-LLM |
优点 | ✅ 支持 8/6/5/4/3bit 量化,显著减小模型体积 ✅ 可在 CPU、本地 GPU、甚至安卓/iOS 上运行 ✅ 启动快,占用小,适合离线/移动端部署 ✅ 与 llama.cpp、Ollama 完美兼容 |
缺点 | ❌ 不支持训练 ❌ 不支持推理微调后的权重(部分量化损失信息) ❌ 模型结构较固定,功能不如 Transformers 丰富 |
推荐用途 | 轻量本地推理、无 GPU 环境、移动端、便携式 AI 助手等场景 |
🧩 3. PyTorch 原生格式(.pt
, .pth
)
项目 | 说明 |
---|---|
用途 | 训练与实验研究 |
支持平台 | PyTorch 原生、Fairseq、OpenNMT、DeepSpeed 等 |
优点 | ✅ 原生保存 PyTorch 模型权重、优化器、训练状态 ✅ 灵活性高,适合研究和自定义模型结构 ✅ 与 PyTorch 训练/微调流程无缝集成 |
缺点 | ❌ 不适合直接部署服务(缺乏标准接口) ❌ 加载慢,占用高 ❌ 安全性弱(使用 pickle) |
推荐用途 | 训练阶段模型保存、中间调试、自主研发模型训练流程 |
🧩 4. Safetensors 格式(.safetensors
)
项目 | 说明 |
---|---|
用途 | 替代 .bin ,提高安全性与加载效率 |
支持平台 | HuggingFace Transformers、vLLM、text-generation-webui 等 |
优点 | ✅ 零信任安全格式,防止 pickle 执行 ✅ 加载更快,支持内存映射(mmap) ✅ 支持模型切片并行加载 |
缺点 | ❌ 不支持训练中间状态(如优化器参数) ❌ 一些老工具或脚本尚不兼容 |
推荐用途 | 安全部署、云服务推理、高性能模型加载(推荐替代 .bin 使用) |
🧩 5. ONNX 格式(.onnx
)
项目 | 说明 |
---|---|
用途 | 跨平台、推理优化部署 |
支持平台 | ONNX Runtime, TensorRT, OpenVINO, DeepSparse 等 |
优点 | ✅ 跨平台部署:x86、ARM、Web、边缘设备 ✅ 支持多种硬件推理引擎 ✅ 推理速度快,适合小型模型 |
缺点 | ❌ LLM 转换复杂,兼容性差(如 LLaMA、ChatGLM 转换容易失败) ❌ 动态模型支持较弱 ❌ 仅适合推理,难以微调 |
推荐用途 | 小模型部署到边缘/浏览器/嵌入式设备,如 BERT、TinyGPT、Whisper 等场景 |
🧩 6. TensorFlow 系列(.pb
, .ckpt
, SavedModel)
项目 | 说明 |
---|---|
用途 | TensorFlow 模型训练与部署 |
支持平台 | TensorFlow、TF Lite、Google Cloud AI |
优点 | ✅ 适用于 Google 生态(如 GCP AI 平台) ✅ TF Lite 可部署到移动端 ✅ SavedModel 格式结构清晰 |
缺点 | ❌ 当前大模型主流生态已转向 PyTorch ❌ 工具链繁杂,格式繁多 ❌ HuggingFace 转换支持不完善 |
推荐用途 | 在 TensorFlow 项目中部署 BERT、T5、Tiny GPT 等模型,适用于移动端应用或谷歌平台用户 |
📊 汇总对比表
格式 | 支持推理 | 支持训练 | 量化支持 | 安全性 | 部署易用性 | 推荐场景 |
---|---|---|---|---|---|---|
.bin | ✅ | ✅ | ❌ | ⚠️ 低(pickle) | ⭐⭐⭐⭐ | 通用、微调、vLLM |
.safetensors | ✅ | ❌ | ⚠️ 部分支持 | ✅ 高 | ⭐⭐⭐⭐⭐ | 高性能安全部署 |
.gguf | ✅ | ❌ | ✅ 强 | ✅ 高 | ⭐⭐⭐⭐⭐ | 本地部署,低资源运行 |
.pt/.pth | ⚠️ 部分 | ✅ | ❌ | ⚠️ 低(pickle) | ⭐⭐ | 自研训练流程 |
.onnx | ✅ | ❌ | ⚠️ 有限支持 | ✅ 高 | ⭐⭐⭐⭐ | 推理优化、Web/移动端 |
.pb/.ckpt | ✅ | ✅ | ⚠️ 弱 | ✅ 中 | ⭐⭐ | TF 项目,谷歌平台 |