目录
前言
为什么本地部署
正常我们要调用大模型,就需要将企业或个人信息传递到外部的大模型服务器,这种情况在目前极为重视数据安全的情况下,可能就有问题了。但是,本地部署大模型就没有这个问题,本地部署大模型后,不需要联网即可调用大模型,就没有了通过调用外部大模型导致数据泄露的问题。
再一个一说起大模型,不管训练还是推理,一般都是需要GPU。能不能有一些方法实现本地也可以部署大模型进行推理?
以上也就是写这一篇的初衷了。
目前的工具
目前有vllm、chatglm.cpp(llama.cpp也类似是通过C++实现)--提供编程能力,可以命令行运行,可以提供webapi
Ollama--命令行运行,可以提供webapi
lmstudio--纯界面操作
vllm
介绍
vllm主要作用其实是可以提高推理性能,但是必须在linux下运行,而且必须有GPU
官网地址
vllm官网 Welcome to vLLM! — vLLMhttps://docs.vllm.ai/en/latest/
下载模型
这里以下载千问7B为例,由于模型文件会比较大,因此安装git的lfs插件
git lfs install
git clone https://huggingface.co/Qwen/Qwen-7B-Chat
安装vllm
安装的话,为了避免python环境冲突问题,先通过conda创建一个新的虚拟环境
然后pip install vllm
也可以先从github下载,再去安装
vllm github地址https://github.com/vllm-project/vllm
运行
python -m vllm.entrypoints.openai.api_server --model="Qwen/Qwen-7B-Chat" --trust-remote-code --port 1234
注意:--model参数这里,如果之前已经下载了模型文件,这里是参数值改为模型文件路径,否则设置为模型名,然后会自动下载
注意2:通过aipost工具调用大模型,model参数需要和如上cmd运行命令的--model参数一致,否则会提示找不到model,这个我觉得是比较不好的一点
存在问题
1)通过apipost工具调用webapi,回答完,还会继续输出其他内容
一样,没搞懂为啥
补充:运行增加VLLM_USE_MODELSCOPE=True 推理速度会快很多,