利用docker一键部署LLaMa到自己的Linux服务器，有无GPU都行、可以指定GPU数量、支持界面对话和API调用，离线本地化部署包含模型权重合并

最新推荐文章于 2024-04-21 16:04:14 发布

代码讲故事

最新推荐文章于 2024-04-21 16:04:14 发布

阅读量662

点赞数 2

分类专栏：机器人智慧之心文章标签： docker llama llamma.cpp 语言模型量化 api web

本文链接：https://blog.csdn.net/u014374009/article/details/136190542

版权

机器人智慧之心专栏收录该内容

33 篇文章 8 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

利用docker一键部署LLaMa到自己的Linux服务器，有无GPU都行、可以指定GPU数量、支持界面对话和API调用，离线本地化部署包含模型权重合并。两种方式实现支持界面对话和API调用，一是通过搭建text-generation-webui。二是通过llamma.cpp转换模型为转换为 GGUF 格式，使用 quantize 量化模型，使用 llama.cpp 运行 GGUF 模型。

在这里插入图片描述

斯坦福大学的Alpaca-lora模型的本地化部署，并验证了实际的推理效果，总体感觉并不是特别理想，原始Alpaca-lora模型对中文支持并不好，用52k的中文指令集对模型进行fine-tuning之后，效果依然达不到网上说的媲美GPT-3.5的推理效果，验证了那句话：“事不目见耳闻，而臆断其有无，可乎？”。在具有3块Tesla P40显卡的服务器上，利用3块GPU显卡加载模型参数和计算，进行一次简单的推理（非数学运算和逻辑运算）也需要大概30s-1min的时间，效率简直慢的惊人，虽然用中文数据集对模型进行了fine-tuning，然而对中文的支持也并不是很好，经常会出现乱码、重复问题、词不达意等情况。

当时大模型也同雨后春笋般的层出不穷，各个大厂和科研机构都推出了自己的大模型，其中基于LLaMA（开源且好用）的最多，所以决定再看看其他模型，有没有推理效果好，中文支持好，同时推理效率高的模型。经过筛选，Vicuna-13B的推理效果据说达到了ChatGPT的90%以上的能力࿰

了解本专栏

超级会员免费看

代码讲故事

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
利用docker一键部署LLaMa到自己的Linux服务器，有无GPU都行、可以指定GPU数量、支持界面对话和API调用，离线本地化部署包含模型权重合并

利用docker一键部署LLaMa到自己的Linux服务器，有无GPU都行、可以指定GPU数量、支持界面对话和API调用，离线本地化部署包含模型权重合并。两种方式实现支持界面对话和API调用，一是通过搭建text-generation-webui。二是通过llamma.cpp转换模型为转换为 GGUF 格式，使用 quantize 量化模型，使用 llama.cpp 运行 GGUF 模型。
复制链接

扫一扫