引言
在自然语言处理(NLP)领域,大模型(LLM)以其卓越的性能和广泛的应用场景而备受关注。近期,Meta 宣布推出了迄今为止最强大的开源模型——Llama 3.1,其中包括了 405B、70B 和 8B 三个不同版本的模型。本文将详细介绍 Llama 3.1 8B 版本的部署流程、使用方法,并在最后进行总结。
Llama 3.1 概述
Llama 3.1 是 Meta 推出的最新开源大模型,它基于深度学习算法进行训练,支持自然语言理解和生成。其中,405B 版本支持上下文长度为 128K Tokens,并在超过 1.6 万个 H100 GPU 上进行了训练,这是 Meta 有史以来训练规模最大的 Llama 模型。
尽管 405B 版本功能强大,但出于资源限制,本次我们主要介绍 8B 版本的部署与使用。Llama 3.1 8B 版本至少需要 GPU 显存 16G,适用于大多数中小规模的项目和实验。
部署流程
创建 GPU 云实例
- 进入控制台:首先,登录到 GPU 云实例的控制台。
- 选择实例配置:
- 付费类型:短期需求可选择按量付费或包日,长期需求则选择包月套餐。
- GPU 数量和型号:推荐选择 NVIDIA GeForce RTX 4090,该配置拥有 60GB 内存和 24GB 显存(满足 Llama 3.1 8B 的需求)。
- 配置数据硬盘:默认大小为 50GB,如通过官方预制方式下载模型,建议扩容至 60GB。
- 选择镜像:筛选并安装 PyTorch 2.4.0 的基础镜像。
- 创建密钥对:创建密钥对以确保安全登录,并将私钥保存至本地电脑。
启动实例:配置完成后,点击立即创建并等待实例启动成功。
登录实例
实例创建成功后,可以通过以下几种方式登录:
- JupyterLab:通过平台提供的在线访问入口直接登录。
- SSH 登录:使用系统自带终端、Xshell、MobaXterm 等工具,输入用户名、远程主机域名或 IP、端口号及密钥进行登录。
部署 Llama 3.1
1. 创建环境
使用 conda 管理环境,创建新的 Python 3.12 环境。
bash复制代码
conda create -n llama3 python=3.12
conda activate llama3
2. 安装依赖
安装 Llama 3.1 所需的依赖库。
bash复制代码
pip install langchain==0.1.15
pip install streamlit==1.36.0
pip install transformers==4.44.0
pip install accelerate==0.32.1
3. 下载模型
从平台预制位置下载 Llama-3.1-8B-Instruct 模型。
bash复制代码
wget http://file.s3/damodel-openfile/Llama3/Llama-3.1-8B-Instruct.tar
tar -xf Llama-3.1-8B-Instruct.tar
4. 准备启动脚本
创建
<font style="color:rgb(5, 7, 59);">llamaBot.py</font>
文件,并编写用于加载模型和启动 Web 服务的代码。
- 启动 Streamlit 服务:在终端中运行以下命令启动服务。
bash复制代码
streamlit run llamaBot.py --server.port 8501 --server.address 0.0.0.0
- 点击添加端口,添加streamlit服务对应端口:
使用教程
模型部署完成后,可以通过访问映射后的公网地址打开 Llama 3.1 Chatbot 的交互界面。在界面中输入文本,模型将自动生成回复,实现与用户的对话。
总结
本文详细介绍了 Llama 3.1 8B 版本的部署流程和使用方法,包括创建 GPU 云实例、登录实例、部署模型、启动 Streamlit 服务以及端口映射等步骤。通过遵循这些步骤,用户可以在本地或云端环境中成功部署 Llama 3.1 模型,并利用其强大的自然语言处理能力进行各种实验和应用。
Llama 3.1 作为 Meta 推出的最新开源大模型,不仅在性能上