基于Llama 3搭建中文版（Llama3-Chinese-Chat）大模型对话聊天机器人

最新推荐文章于 2025-01-08 11:20:25 发布

江湖人称麻花滕

最新推荐文章于 2025-01-08 11:20:25 发布

阅读量3.3k

点赞数 20

文章标签： llama 机器人网络数据分析人工智能

本文链接：https://blog.csdn.net/m0_59235699/article/details/139248536

版权

HF 上选择排名最高的模型

模型列表官网地址：https://huggingface.co/models

模型列表国内镜像（推荐）：https://hf-mirror.com/models

在模型列表页面按照关键字llama chinese搜索，并按照趋势排序，可以看到中文版模型：

LLama中文版模型

可以看出，第一名模型的下载数量和点赞数量，比第二名要多好多，我们就选择shenzhi-wang这位作者发布的模型。

方式一：通过 GGUF 量化模型安装（推荐）

GGUF 安装比较简单，下载单个文件即可：

LLama中文版GGUF模型

下载到本地之后，按照我的第一篇博文，即可进行控制台聊天了：

启动大模型Shell 脚本：

source ./venv/bin/activate      python -m llama_cpp.server --host 0.0.0.0 --model \      ./Llama3-8B-Chinese-Chat-q4_0-v2_1.gguf \      --n_ctx 20480

Python 对话客户端代码：

from openai import OpenAI      # 注意服务端端口，因为是本地，所以不需要api_key   ip = '127.0.0.1'   #ip = '192.168.1.37'   client = OpenAI(base_url="http://{}:8000/v1".format(ip),            api_key="not-needed")      # 对话历史：设定系统角色是一个只能助理，同时提交“自我介绍”问题   history = [       {"role": "system", "content": "你是一个智能助理，你的回答总是容易理解的、正确的、有用的和内容非常精简."},   ]      # 首次自我介绍完毕，接下来是等代码我们的提示   while True:       completion = client.chat.completions.create(           model="local-model",           messages=history,           temperature=0.7,           stream=True,       )          new_message = {"role": "assistant", "content": ""}          for chunk in completion:           if chunk.choices[0].delta.content:               print(chunk.choices[0].delta.content, end="", flush=True)               new_message["content"] += chunk.choices[0].delta.content          history.append(new_message)       print("\033[91;1m")          userinput = input("> ")       if userinput.lower() in ["bye", "quit", "exit"]: # 我们输入bye/quit/exit等均退出客户端           print("\033[0mBYE BYE!")           break          history.append({"role": "user", "content": userinput})       print("\033[92;1m")

运行 Python 客户端即可：

Python控制台对话客户端

基于 GGUF 量化模型生成 Ollama模型文件，假设文件名为Modelfile-Chinese，内容如下：

FROM ./Llama3-8B-Chinese-Chat-q4_0-v2_1.gguf

执行 Ollama 模型转换，Llama-3-8B-Chinese为 Ollama 模型名：

$ ollama create Llama-3-8B-Chinese -f ./Modelfile-Chinese   transferring model data   using existing layer sha256:242ac8dd3eabcb1e5fcd3d78912eaf904f08bb6ecfed8bac9ac9a0b7a837fcb8   creating new layer sha256:9f3bfa6cfc3061e49f8d5ab5fba0f93426be5f8207d8d8a9eebf638bd12b627a   writing manifest   success

可以通过 Ollama 查看目前的大模型列表：

$ ollama list   NAME                      ID           SIZE   MODIFIED   Llama-3-8B-Chinese:latest 37143cf1f51f 4.7 GB 42 seconds ago   Llama-3-8B:latest         74abc0712fc1 4.9 GB 3 days ago

可以看到我们刚安装的大模型：Llama-3-8B-Chinese

启动ollama-webui-lite项目，可以选择Llama-3-8B-Chinese模型和对话聊天了：

$ npm run dev      > ollama-webui-lite@0.0.1 dev   > vite dev --host --port 3000              VITE v4.5.3  ready in 1797 ms        ➜  Local:   http://localhost:3000/     ➜  Network: http://192.168.101.30:3000/     ➜  press h to show help

OlLama选择中文版模型

方式二：通过 Ollama 拉取模型文件

这种方式比较简单，无需下载 GGUF 模型文件，可以让 Ollama 直接拉取模型文件并完成安装：

# Llama3-8B-Chinese-Chat的4位量化版本（对机器性能要求最低）   ollama run wangshenzhi/llama3-8b-chinese-chat-ollama-q4      # Llama3-8B-Chinese-Chat的8位量化版本（对机器性能要求中等）   ollama run wangshenzhi/llama3-8b-chinese-chat-ollama-q8      # Llama3-8B-Chinese-Chat的f16未量化版本（对机器性能要求最高）   ollama run wangshenzhi/llama3-8b-chinese-chat-ollama-fp16

Ollama 自动下载并完成安装，之后启动ollama-webui-lite项目，就可以使用了~

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述