上一节课程链接:中文llama3仿openai api实战-CSDN博客 ,本文是在上一节基础上继续操作
课程介绍
本文基于Chinese-LLaMA-Alpaca-3(https://github.com/ymcui/Chinese-LLaMA-Alpaca-3)项目,介绍如何通过搭建2个llama3私有化api和oneapi网关,实现大模型接口的高可用方案。
(1)上节课,我们进行了llama3-8b模型的本地化部署及仿openai api接口开放;
(2)本次课基于上节课的基础,进行llama3-8b本地化及接口的高可用;
学习知识:
(1)windows终端ssh服务器、windows版本客户端安装;
(2)windows作为客户端的cpu/gpu大模型的部署和应用:
(3)基于容器(docker)安装oneapi及配置,使用oneapi连接已部署的cpu/gpu版本大模型;
(4)基于oneapi学习高可用测试;
(5)一些常用指令操作;
实验环境
本文的基础环境如下
操作系统:ubuntu20.04
CUDA:12.2
英伟达显卡驱动版本:535.183.01
显卡型号:本实验用英伟达3090(全模型(未开量化)需要单张显存大于20GB的英伟达显卡;
**开量化之后的模型可以使用11GB显存的英伟达显卡,基本市面上大部分消费级显卡可以满足实验要求,
大家根据自己的显卡进行选择实验)
客户端演示环境: windows
实验环境准备
大模型聊天客户端
我们使用ChatGPTNextWeb工具测试我们的接口,如果您没有下载客户端,可以通过下面地址下载:
大模型聊天客户端
我们使用ChatGPTNextWeb工具测试我们的接口,如果您没有下载客户端,可以通过下面地址下载:
Windows:
llama3大模型接口高可用工程实践

最低0.47元/天 解锁文章

1528

被折叠的 条评论
为什么被折叠?



