RAG | Llama3|The Thing AI云服务器

最新推荐文章于 2024-10-07 06:31:57 发布

Grred

最新推荐文章于 2024-10-07 06:31:57 发布

阅读量1.2k

点赞数 42

文章标签：人工智能

本文链接：https://blog.csdn.net/Grred/article/details/139063184

版权

Step1 注册云服务器

云服务平台：https://www.onethingai.comAI 算力平台https://console.onethingai.com/dashboard

选择AI实验室
选择AI训练模块
深度学习框架自选

如果后续需要部署的模型较大的话需要扩充数据盘
提前计算好需要的GPU资源，超出规模需要重新创建应用
不量化 8b量化 4b量化
Qwen1.5-110B-Chat 215G 113G 62G
Qwen1.5-72B-Chat 150左右 80左右 40左右

Step2 部署Ollama

ollama是一个大模型快捷部署工具
根据官网提供的指令直接进行下载即可
```
curl -fsSL https://ollama.com/install.sh | sh
```

Tips1 Ollama默认路径修改，防止系统盘挤爆

Olllama默认保存系统盘，然鹅这个云服务器的系统盘非常小，要修改一下配置

(base) root@instance:~/onethingai-tmp/llama# ollama serve --help
Start ollama

Usage:
  ollama serve [flags]

Aliases:
  serve, start

Flags:
  -h, --help   help for serve

Environment Variables:

    OLLAMA_HOST         The host:port to bind to (default "127.0.0.1:11434")
    OLLAMA_ORIGINS      A comma separated list of allowed origins
    OLLAMA_MODELS       The path to the models directory (default "~/.ollama/models")
    OLLAMA_KEEP_ALIVE   The duration that models stay loaded in memory (default "5m")
    OLLAMA_DEBUG        Set to 1 to enable additional debug logging
(base) root@instance:~/onethingai-tmp/llama#

通过帮助页面可见，环境变量OLLAMA_MODELS和存储路径相关

修改配置文件
路径：etc/systemd/system/ollama.service
增加两行环境变量

Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_MODELS=/root/onethingai-tmp/llama/model"

export临时变量
```
export LLAMA_MODELS=
```
关闭ollama并重启
```
ps -ef|grep ollama
kill pid
```
一套操作下来，文件就可以顺利被下载到数据盘了，记得扩容

Step3 部署LLAMA中文版

LLAMA官方版本中文能力一塌糊涂，因此我们可以先部署一个llama3中文版

在hugging face直接选择了一个上升趋势比较快的
甚至已经提供了ollama部署的代码

ollama run wangshenzhi/llama3-70b-chinese-chat-ollama-q4:latest
ollama run wangshenzhi/llama3-70b-chinese-chat-ollama-q8:latest

也可以去library里面搜支持的想要的大模型下载指令
https://ollama.com/libraryhttps://ollama.com/library

Tips2 无卡启用，节省成本

模型下载这些可以选择无卡启用，十分便宜，一天2.5元
按钮非常隐蔽，可恶

Step4 RAG

本次实验主要目的在于测试RAG对大模型的影响，先选用一个文本数据集进行测试

小规模文本数据集

Grred

关注

42
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

	不量化	8b量化	4b量化
Qwen1.5-110B-Chat	215G	113G	62G
Qwen1.5-72B-Chat	150左右	80左右	40左右