Llama中文大模型-模型部署

程序员维他命

已于 2024-08-28 11:36:54 修改

阅读量681

点赞数 19

文章标签： llama 大模型人工智能

于 2024-05-25 16:00:28 首次发布

本文链接：https://blog.csdn.net/h1453586413/article/details/139198921

版权

选择学习路径

快速上手-使用Anaconda

第 0 步：前提条件

确保安装了 Python 3.10 以上版本。

第 1 步：准备环境

如需设置环境，安装所需要的软件包，运行下面的命令。

git clone https://github.com/LlamaFamily/Llama-Chinese.git
cd Llama-Chinese
pip install -r requirements.txt

第 2 步：下载模型

你可以从以下来源下载Atom-7B-Chat模型。

第 3 步：进行推理

使用Atom-7B-Chat模型进行推理

创建一个名为 quick_start.py 的文件，并将以下内容复制到该文件中。
```
import torch
```

from transformers import AutoTokenizer, AutoModelForCausalLM
device_map = "cuda:0" if torch.cuda.is_available() else "auto"
model = AutoModelForCausalLM.from_pretrained('FlagAlpha/Atom-7B-Chat',device_map=device_map,torch_dtype=torch.float16,load_in_8bit=True,trust_remote_code=True,use_flash_attention_2=True)
model =model.eval()
tokenizer = AutoTokenizer.from_pretrained('FlagAlpha/Atom-7B-Chat',use_fast=False)
tokenizer.pad_token = tokenizer.eos_token
input_ids = tokenizer(['<s>Human: 介绍一下中国\n</s><s>Assistant: '], return_tensors="pt",add_special_tokens=False).input_ids
if torch.cuda.is_available():
  input_ids = input_ids.to('cuda')
generate_input = {
    "input_ids":input_ids,
    "max_new_tokens":512,
    "do_sample":True,
    "top_k":50,
    "top_p":0.95,
    "temperature":0.3,
    "repetition_penalty":1.3,
    "eos_token_id":tokenizer.eos_token_id,
    "bos_token_id":tokenizer.bos_token_id,
    "pad_token_id":tokenizer.pad_token_id
}
generate_ids  = model.generate(**generate_input)
text = tokenizer.decode(generate_ids[0])
print(text)

2. 运行 quick_start.py 代码。
```
python quick_start.py
```

快速上手-使用Docker

详情参见：Docker部署

第一步：准备docker镜像，通过docker容器启动

git clone https://github.com/LlamaFamily/Llama-Chinese.git

cd Llama-Chinese

docker build -f docker/Dockerfile -t flagalpha/llama2-chinese:gradio .

第二步：通过docker-compose启动chat_gradio

```
cd Llama-Chinese/docker
```

doker-compose up -d --build

快速上手-使用llama.cpp

详情参见：[使用llama.cpp](https://github.com/LlamaFamily/Llama2-Chinese/blob/main/inference-
speed/CPU/ggml/README.md “使用llama.cpp”)

快速上手-使用gradio

基于gradio搭建的问答界面，实现了流式的输出，将下面代码复制到控制台运行，以下代码以Atom-7B-Chat模型为例，不同模型只需修改一下面的model_name_or_path对应的模型名称就好了😊

git clone https://github.com/LlamaFamily/Llama-Chinese.git

cd Llama-Chinese

python examples/chat_gradio.py --model_name_or_path FlagAlpha/Atom-7B-Chat

FastAPI接口搭建

为了方便通过API方式调用模型，我们提供了脚本用来快速搭建FastAPI接口，相关测试代码与API参数设置见API 调用。

https://github.com/LlamaFamily/Llama-Chinese/blob/main/scripts/api/README.md

AI时代的职场新潮流

听说AI要来抢工作了？别担心，新岗位可比旧岗位有趣多了！想象一下，你从搬砖工升级成了机器人操作员，从算盘小能手变成了大数据分析师，这不是美滋滋吗？所以，社会生产效率提升了，我们也能更轻松地工作。不过，想成为AI界的佼佼者？那就得赶紧学起来，不然就会被同行们甩得连AI的尾巴都摸不着了！

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

程序员维他命

关注

19
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
Llama中文大模型-模型部署

如需设置环境，安装所需要的软件包，运行下面的命令。你可以从以下来源下载Atom-7B-Chat模型。使用Atom-7B-Chat模型进行推理创建一个名为 quick_start.py 的文件，并将以下内容复制到该文件中。2. 运行 quick_start.py 代码。第一步：准备docker镜像，通过docker容器启动第二步：通过docker-compose启动chat_gradio。
复制链接

扫一扫