人工智能_大模型077_AI产品部署和交付07_大模型开发架构设计_本地运行chatglm3_基于VLLM安装以及部署开源大模型_在VLLM中部署YI-6B-Chat---人工智能工作笔记0212

添柴程序猿

于 2024-05-24 15:04:18 发布

阅读量241

点赞数

分类专栏：深度/机器学习&爬虫文章标签：人工智能 VLLM安装大模型安装 YI-6B-Chat部署

本文为博主原创文章，未经博主添柴程序猿允许不得转载违者追究法律责任。

本文链接：https://blog.csdn.net/lidew521/article/details/139092139

版权

深度/机器学习&爬虫专栏收录该内容

168 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何在本地使用C++实现大模型运行，详细步骤包括CMake配置、构建与运行。重点讲述了通过VLLM安装和部署开源大模型YI-6B-Chat，涵盖了从下载模型到设置conda环境、安装vllm及启动服务的完整过程。此外，还讨论了向量数据库在知识库、图像识别和内容推荐等场景的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在个人电脑运行一个大模型

cpp (c++ c plus plus)

纯 C/C++ 实现，无需外部依赖。
针对使用 ARM NEON、Accelerate 和 Metal 框架的 Apple 芯片进行了优化。
支持适用于 x86 架构的 AVX、AVX2 和 AVX512。
提供 F16/F32 混合精度，并支持 2 位至 8 位整数量化。

参考：https://github.com/li-plus/chatglm.cpp

参考：https://github.com/li-plus/chatglm.cpp

部署 chatglm3
git clone --recursive https://github.com/li-plus/chatglm.cpp.git && cd chatglm.cpp
git submodule update --init --recursive
Quantize Model 量化模型
python3 -m pip install torch tabulate tqdm transformers accelerate sentencepiece
通过 convert 专为 G