Step1 注册云服务器
云服务平台:https://www.onethingai.comAI 算力平台https://console.onethingai.com/dashboard
- 选择AI实验室
- 选择AI训练模块
- 深度学习框架自选
- 如果后续需要部署的模型较大的话需要扩充数据盘
- 提前计算好需要的GPU资源,超出规模需要重新创建应用
-
不量化 8b量化 4b量化 Qwen1.5-110B-Chat 215G 113G 62G Qwen1.5-72B-Chat 150左右 80左右 40左右
Step2 部署Ollama
- ollama是一个大模型快捷部署工具
- 根据官网提供的指令直接进行下载即可
curl -fsSL https://ollama.com/install.sh | sh
Tips1 Ollama默认路径修改,防止系统盘挤爆
Olllama默认保存系统盘,然鹅这个云服务器的系统盘非常小,要修改一下配置
(base) root@instance:~/onethingai-tmp/llama# ollama serve --help
Start ollama
Usage:
ollama serve [flags]
Aliases:
serve, start
Flags:
-h, --help help for serve
Environment Variables:
OLLAMA_HOST The host:port to bind to (default "127.0.0.1:11434")
OLLAMA_ORIGINS A comma separated list of allowed origins
OLLAMA_MODELS The path to the models directory (default "~/.ollama/models")
OLLAMA_KEEP_ALIVE The duration that models stay loaded in memory (default "5m")
OLLAMA_DEBUG Set to 1 to enable additional debug logging
(base) root@instance:~/onethingai-tmp/llama#
通过帮助页面可见,环境变量OLLAMA_MODELS和存储路径相关
- 修改配置文件
路径:etc/systemd/system/ollama.service
增加两行环境变量Environment="OLLAMA_HOST=0.0.0.0" Environment="OLLAMA_MODELS=/root/onethingai-tmp/llama/model"
- export临时变量
export LLAMA_MODELS=
- 关闭ollama并重启
一套操作下来,文件就可以顺利被下载到数据盘了,记得扩容ps -ef|grep ollama kill pid
Step3 部署LLAMA中文版
- LLAMA官方版本中文能力一塌糊涂,因此我们可以先部署一个llama3中文版
- 在hugging face直接选择了一个上升趋势比较快的
- 甚至已经提供了ollama部署的代码
ollama run wangshenzhi/llama3-70b-chinese-chat-ollama-q4:latest
ollama run wangshenzhi/llama3-70b-chinese-chat-ollama-q8:latest
-
也可以去library里面搜支持的想要的大模型下载指令
https://ollama.com/libraryhttps://ollama.com/library
Tips2 无卡启用,节省成本
- 模型下载这些可以选择无卡启用,十分便宜,一天2.5元
- 按钮非常隐蔽,可恶
Step4 RAG
本次实验主要目的在于测试RAG对大模型的影响,先选用一个文本数据集进行测试
- 小规模文本数据集