序号 | 推理框架名称 | 开发单位 | 主要应用场景 | 硬件支持 | 性能表现 | 易用性 | 量化支持 | 跨平台能力 | 移动端优化 | 视频流优化 | 模型支持 |
---|---|---|---|---|---|---|---|---|---|---|---|
1 | TVM | 社区开源项目 | 跨平台(CPU/GPU/ARM) | CPU/GPU/ARM | 中等(需手动调优) | 需手动调优 | 支持 FP16/INT8 | 强(多种硬件架构) | 支持 | 不支持 | 多框架(ONNX/TensorFlow/PyTorch) |
2 | TensorRT | NVIDIA | NVIDIA GPU | NVIDIA GPU | 最快(GPU 优化) | 开箱即用 | 支持 FP16/INT8 | 仅限 NVIDIA GPU | 不支持 | 不支持 | 多框架(ONNX/TensorFlow/PyTorch) |
3 | ONNXRuntime | 微软 | 跨平台(云、边缘、移动设备) | CPU/GPU/TPU/FPGA/边缘设备 | 高(多种硬件加速) | 开箱即用,易于集成 | 支持 FP16/INT8 | 强(Windows、Linux、macOS、Android) | 支持 | 不支持 | 多框架(ONNX、TensorFlow、PyTorch、Keras 等) |
4 | OpenVINO | Intel | Intel CPU/GPU | Intel CPU/GPU | 快(CPU/GPU 优化) | 开箱即用 | 支持 FP16/INT8 | 仅限 Intel 硬件 | 不支持 | 不支持 | 多框架(ONNX/TensorFlow/PyTorch) |
5 | NCNN | 腾讯 | 移动端/嵌入式 | ARM CPU/GPU | 中等(移动端优化) | 开箱即用 | 支持 FP16/INT8 | 跨平台(ARM/CPU/GPU) | 最优(轻量级设计) | 不支持 | 多框架(ONNX/Caffe/TensorFlow) |
6 | MNN | 阿里巴巴 | 移动端 | ARM CPU/GPU | 中等 | 开箱即用 | 支持 INT8 | 跨平台 | 优化良好 | 不支持 | 多框架 |
7 | MediaPipe | 移动端、嵌入式 | 多平台(支持 TPU) | 中等 | 开箱即用 | 支持 TF Lite 量化 | 跨平台 | 支持 | 支持 | 主要支持 TensorFlow | |
8 | ONNX Runtime | 微软、亚马逊、Facebook 等 | 多平台(CPU/GPU) | CPU/GPU | 中等 | 开箱即用 | 支持 FP16/INT8 | 多平台 | 支持 | 不支持 | 支持多种框架 |
9 | DeepStream | NVIDIA | 视频流处理 | NVIDIA GPU | 快(视频流优化) | 开箱即用 | 支持 INT8 | 仅限 NVIDIA GPU | 不支持 | 最优 | 支持多种框架 |
10 | Paddle Inference | 百度 | 跨平台(CPU/GPU) | CPU/GPU | 中等 | 开箱即用 | 支持 FP16/INT8 | 跨平台 | 支持 | 不支持 | 支持多种框架 |
11 | TNN | 腾讯 | 移动端 | ARM CPU/GPU | 中等 | 开箱即用 | 支持 INT8 | 跨平台 | 优化良好 | 不支持 | 多框架 |
12 | LibTorch | Facebook/Meta | 跨平台 | CPU/GPU | 中等 | 开箱即用 | 不支持 | 跨平台 | 不支持 | 不支持 | 多框架 |
13 | Paddle Lite | 百度 | 移动端 | ARM CPU/GPU | 中等 | 开箱即用 | 支持 INT8 | 跨平台 | 优化良好 | 不支持 | 多框架 |
14 | MegEngine Lite | 旷视 | 移动端 | ARM CPU/GPU | 中等 | 开箱即用 | 支持 INT8 | 跨平台 | 优化良好 | 不支持 | 多框架 |
15 | OpenPPL | 商汤 | 跨平台 | CPU/GPU | 中等 | 开箱即用 | 支持 FP16 | 跨平台 | 不支持 | 不支持 | 多框架 |
16 | Bolt | 华为 | 移动端 | CPU/GPU | 中等 | 开箱即用 | 支持 FP16 | 跨平台 | 不支持 | 不支持 | 多框架 |
17 | ExecuTorch | Facebook/Meta | 跨平台 | CPU/GPU | 中等 | 开箱即用 | 不支持 | 跨平台 | 不支持 | 不支持 | 多框架 |
18 | DeepSpeed | 微软 | 高性能推理 | CPU/GPU | 高吞吐量 | 开箱即用 | 英特尔 INT8 | 跨平台 | 不支持 | 不支持 | 多框架 |
19 | Llama.cpp | Meta | 苹果设备优化 | 苹果设备 | 高性能 | 开箱即用 | 苹果设备优化 | 跨平台 | 不支持 | 不支持 | 苹果设备优化 |
20 | FastDeploy | PaddlePaddle | 轻量级推理 | 轻量级硬件 | 中等 | 开箱即用 | 轻量级量化 | 跨平台 | 优化良好 | 不支持 | 轻量级优化 |
21 | DeepSparse | Intel | 高性能推理 | CPU/GPU | 中等 | 开箱即用 | 英特尔 INT8 | 跨平台 | 不支持 | 不支持 | 高性能推理 |
22 | ORT-Nightly | 微软 | 夜间版本 | CPU/GPU | 中等 | 开箱即用 | 夜间版本优化 | 跨平台 | 不支持 | 不支持 | 夜间版本优化 |
23 | Triton | NVIDIA | 高性能推理 | NVIDIA GPU | 高性能 | 开箱即用 | 高性能优化 | 跨平台 | 不支持 | 不支持 | 高性能优化 |
24 | OpenVINO-Quantized | Intel | 量化优化 | Intel 硬件 | 中等 | 开箱即用 | 量化优化 | 仅限 Intel 硬件 | 不支持 | 不支持 | 量化优化 |
25 | TVM-Quantized | 社区开源项目 | 量化优化 | CPU/GPU/ARM | 中等 | 开箱即用 | 量化优化 | 跨平台 | 不支持 | 不支持 | 量化优化 |
26 | WebLLM | 社区开源项目 | 浏览器端推理 | WebGPU | 高性能 | 开箱即用 | 无服务器架构 | 跨平台 | 不支持 | 不支持 | 支持多种模型 |
27 | VLLM | 社区开源项目 | 高并发推理 | NVIDIA GPU | 高性能 | 开箱即用 | 支持多种量化 | 仅限 Linux | 不支持 | 不支持 | 支持 Hugging Face 模型 |
28 | Ollama | 社区开源项目 | 轻量级推理 | CPU/GPU | 高效推理 | 简单易用 | 支持多种量化 | 跨平台 | 不支持 | 不支持 | 支持多种模型 |
29 | SGLang | 社区开源项目 | 企业级推理 | NVIDIA GPU | 高性能 | 需技术基础 | 支持多种量化 | Linux | 不支持 | 不支持 | 支持多种模型 |
30 | TensorFlow Lite | 移动端推理 | CPU/GPU | 中等 | 开箱即用 | 支持量化 | 跨平台 | 优化良好 | 不支持 | 支持 TensorFlow 模型 | |
31 | KTransformers | 清华大学 | 优化大语言模型推理 | CPU/GPU | 高性能 | 开箱即用 | 支持多种量化 | 跨平台 | 不支持 | 不支持 | 支持多种模型 |
32 | MACE | 小米 | 移动端 | ARM CPU/GPU | 中等 | 开箱即用 | 支持 INT8 | 跨平台 | 优化良好 | 不支持 | 多框架 |
未完待续…