5种搭建LLM服务的方法和代码示例

在不断发展的大型语言模型(LLMs)领域中,用于支持这些模型的工具和技术正以与模型本身一样快的速度进步。在这篇文章中,我们将总结5种搭建开源大语言模型服务的方法,每种都附带详细的操作步骤,以及各自的优缺点。

图片

1、Anaconda + CPU

我们首先介绍门槛最低的入门级方法,因为这个方法不需要GPU,基本上只要有一个还不错的CPU和足够RAM就可以运行。

这里我们使用llama.cpp及其python绑定llama-cpp-python
在这里插入图片描述

创建一个名为models/7B的目录来存储下载的模型。然后使用命令下载GGUF格式的量化模型:

在这里插入图片描述

然后就可以运行以下命令启动服务器:

 python3 -m llama_cpp.server --model models/7B/llama-2-7b-chat.Q5_K_M.gguf

将环境变量MODEL设置为下载模型的路径。然后运行openai_client.py脚本就可以访问我们的查询服务器。openai_client.py使用OpenAI库调用LLM服务器并打印响应。

在这里插入图片描述

因为这个方法是门槛最低的,所以他的速度也是最慢的,基于Intel®Core™i9-10900F CPU @ 2.80GHz的系统的处理时间大概是13秒左右,所以这个方法一般用作我们的本地测试服务(如果你GPU不够的话)。

2、Anaconda + GPU

前面的CPU方法是非常慢的,为了加快速度我们将使用vllm,这是一个专门为有效利用gpu而设计的工具。

 pip install vllm

执行以下命令来启动服务器:

 python -m vllm.entrypoints.openai.api_server --model TheBloke/Llama-2-7B-Chat-AWQ --api-
 key DEFAULT --quantization awq --enforce-eager

这将下载AWK量化模型并启动一个OpenAI兼容服务器,我们可以像使用llama.cpp一样进行查询。

“— enforce-eager”是费差个重要的,因为它允许模型在我的10G VRAM GPU中运行,没有内存不足的错误。

在Nvidia RTX 3080 GPU和Intel®Core™i9-10900F CPU的系统下处理时间只有0.79s。CPU快20倍左右,这就是为什么GPU现在都那么贵的一个原因。

这种方式可以用做我们测试服务器或者在线上的小规模部署,如果要求不高,也可以当作生产环境来使用,当然维护起来非常麻烦。

3、Docker + GPU

vllm有很多依赖,如果要批量的安装是一件非常耗时的事情。好在vllm还提供了一个预构建的docker映像,它已经包含了所需的所有库。

对于ubuntu,我们首先安装Nvidia CUDA Toolkit,如果安装了则跳过

 sudo apt install nvidia-cuda-toolkit

然后添加Nvidia Docker存储库并安装Nvidia Container Toolkit:

在这里插入图片描述

配置Docker使用Nvidia runtime:
在这里插入图片描述

然后就可以运行我们的模型了
在这里插入图片描述

这里我们使用-v参数将本地的磁盘映射到容器中,这样所有的容器都可以使用huggingface的模型缓存,避免了重复下载。

docker的部署方式处理一个查询的时间在0.8s左右与使用相同硬件在Anaconda上运行vllm相似。

使用docker可以大大简化我们服务器的环境配置,配合集群管理脚本可以适用于大规模的服务部署。

上面的方式都适用于本地和有GPU主机/集群的方式,下面我们介绍2个比较简单的云GPU的方案,这两个方案都是按需付费的。

4、modal

Modal可以简化无服务器应用程序的部署,特别是那些利用GPU资源的应用程序。它的一个突出的特点是它的计费模式,它确保用户只在他们的应用程序使用GPU资源的持续时间内收费。这意味着当你的应用程序不被使用时则不会收费。

Modal还提供每月30美元的优惠,为用户提供了充分的机会来探索和试验部署gpu加速的应用程序,而无需支付前期费用,这也是我们介绍他的一个原因,因为每月目前还能白嫖30美元,哈。

首先安装:

 pip install modal

然后配置modal的运行环境,这一步需要登陆了

 modal setup

我们这里的vllm_modal_deploy.py改编Modal的官方教程。这个脚本最重要的一点是定义GPU。这里我选择了nvidia T4,因为量化模型非常小:

然后定义运行代码的docker镜像:

在这里插入图片描述

定义App:

 stub = Stub(APP_NAME)

最后编写预测的类:

在这里插入图片描述

@enter()装饰器被用来定义生命周期方法来处理代码的初始化之类的事情。所以我们在这里加载模型并设置生成管道。如果查询触发了此方法,则意味着有一个“冷启动”,也就是第一次启动的耗时会比较长。

定义生成函数:

在这里插入图片描述

最后就是使用命令行进行部署

 modal deploy vllm_modal_deploy.py

部署完成后就可以从python调用这个函数:

在这里插入图片描述

经过我的测试第一次启动大约需要37秒。这包括启动时间和处理时间。应用程序已经启动时的延迟是2.8秒。这些都是在Nvidia T4上运行的,所以3秒还是可以接受的。

需要注意:container_idle_timeout的值是用来回收容器的,超过了这个时间值会进行回收,这样再次启动就会调用初始化的过程,也就是我们说的冷启动。但是因为modal的计费方式,再未回收前都是计费的,所以请谨慎修改。

最后说下费用:Modal的Nvidia T4收费是0.000164 * /秒 或 0.59 * /小时。上面我们使用了几百秒的计算时间,花费了大约0.1美元。

5、AnyScale

Anyscale与Modal类似,但他更专注于提供随时可用的开源模型。我们可以使用Anyscale API的URL直接调用它们。

首先注册并获得API密钥。你可以使用他们提供给新用户的10*$免费套餐来运行本教程。

接下来,我们将使用与之前相同的openai_client.py脚本:

 export API_KEY="CHANGEME" export MODEL="meta-llama/Llama-2-7b-chat-hf" export 
BASE_URL="https://api.endpoints.anyscale.com/v1" python openai_client.py

不需要任何的设置,只要我们在发送请求时修改参数就可以访问不同的模型了,这就是Anyscale的优势

这个请求的延迟大约是3.7秒,还算不错。但是AnyScale是按照令牌来计费的(与OpenAI的API相同)LLama2 7B 的价格是0.15*$ / 1M 令牌。我们运行这个示例花费不到1/10美分。

可以看到AnyScale还是很不错的,对于开源模型我们直接可以拿来使用,并且花费也很低,如果你没有GPU,这个可以作为模型测试的首选平台,一个月几十美元基本上够我们测试当月新发布的所有模型了。

总结

当涉及到服务大型语言模型(llm)时,有各种各样的方法可以选择:

对喜欢本地服务器设置的人来说,使用带有CPU的Anaconda提供了较低的进入门槛,gpu加速的Anaconda环境可以缓解延迟问题,但它仍然面临可伸缩性和对本地资源的依赖方面的限制,特别是在处理大型llm时。

Docker可以简化Python环境配置,可以适应大批量的部署。

Modal提供了一种更灵活的按次付费计算解决方案,使其具有成本效益和易于设置的吸引力

AnyScale提供了较低的进入门槛对于那些追求简单的人来说是一个非常好的选择

我们介绍的这些方法是一个很好的起点,还有很多其他服务比如runpod和AWS,但这些方法需要更多的运维知识,并且在小规模部署上优势并不明显,所以要考虑对针对特定需求和要求量身定制的最佳方案还需要进行全面评估。


如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
### 关于RAG检索增强生成、知识图谱大型语言模型(LLM)的代码实现 #### 背景介绍 RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合了检索模块生成模块的方法,能够有效利用外部知识库来提升生成质量。通过引入知识图谱作为外部知识源,可以进一步提高系统的语义理解推理能力[^2]。 以下是基于Hugging Face TransformersHaystack框架的一个简单示例,展示如何将RAG与知识图谱结合起来应用于实际场景: --- #### 实现步骤概述 1. **加载预训练的语言模型** 使用Hugging Face Transformers中的`T5`或`BART`等模型作为基础生成器。 2. **集成检索模块** 利用Haystack框架搭建一个文档存储检索系统,该系统可以从知识图谱中提取结构化数据并将其转化为自然语言形式供模型使用。 3. **融合生成与检索结果** 将检索到的相关信息输入给生成模型,从而让其具备更强的事实依据支持下的文本生产能力。 --- #### 示例代码 下面是一个简单的Python脚本,演示如何设置这样的环境以及执行基本操作: ```python from transformers import pipeline, TFAutoModelForSeq2SeqLM, AutoTokenizer from haystack.document_stores import InMemoryDocumentStore from haystack.nodes import BM25Retriever from haystack.pipelines import ExtractiveQAPipeline # 初始化 Haystack 文档存储 document_store = InMemoryDocumentStore() document_store.write_documents([ {"content": "Graph RAG combines the power of knowledge graphs with retrieval-augmented generation."}, {"content": "Knowledge graphs provide structured data that can be used to enhance model understanding."} ]) # 设置检索器 retriever = BM25Retriever(document_store=document_store) # 加载生成模型 (这里以 T5 为例) model_name = "t5-small" generator_model = TFAutoModelForSeq2SeqLM.from_pretrained(model_name) tokenizer = AutoTokenizer.from_pretrained(model_name) def generate_with_rag(query): # 检索相关文档 retrieved_docs = retriever.retrieve(query=query, top_k=2) context = "\n".join([doc.content for doc in retrieved_docs]) # 构建提示词 input_text = f"question: {query} context: {context}" inputs = tokenizer(input_text, return_tensors="tf", truncation=True, padding=True) # 进行生成 outputs = generator_model.generate(inputs["input_ids"], max_length=50) answer = tokenizer.decode(outputs[0], skip_special_tokens=True) return answer # 测试函数 if __name__ == "__main__": query = "What is Graph RAG?" result = generate_with_rag(query) print(f"Query: {query}\nAnswer: {result}") ``` 上述代码展示了如何创建一个小型的知识库,并通过BM25算法从中获取最相关的条目;之后这些条目被传递至T5模型来进行最终的回答生成过程[^3]。 --- #### 技术细节说明 - **知识图谱的作用**:在更复杂的部署环境中,可以通过像Neo4j这样的图形数据库管理大规模的关系型数据集,再经由特定接口转换成适合机器学习处理的形式。 - **性能优化建议**:对于工业级应用来说,可能还需要考虑缓存机制减少重复计算开销等问题。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值