.cpp 模型指的是纯 C/C++ 实现,无需外部依赖。 针对使用 ARM NEON、Accelerate 和 Metal 框架的 Apple 芯片进行了优化。支持适用于 x86 架构的 AVX、AVX2 和 AVX512。提供 F16/F32 混合精度,并支持 2 位至 8 位整数量化。常见的示例 ChatGLM cpp:GitHub - li-plus/chatglm.cpp: C++ implementation of ChatGLM-6B & ChatGLM2-6B & ChatGLM3 & more LLMsLlama cpp:GitHub - ggerganov/llama.cpp: LLM inference in C/C++