本地化部署LLM

LLM,large language models

前因

在使用一段时间哈工大的ltp分词项目,因为没有Gpu,就没有去跑最新支持GPU的项目包,就想着配个带GPU的服务器。后来在做图形化分析时,发现里ollama——羊驼,一看对硬件要求很低,支持的model不少,关键是size和资源耗费都是负担得起的。那就试试,49.2K的stars,还有 ollama-python库。

安装前

本地安装前,确认macOS 11,内存尽量32G,windows 有预览版。我装的是 Ollama-darwin.zip(macOS)

安装

command line  先用起来

使用是,会自动加载models,是 Llama2,其他支持或要使用的库,可以在

GitHub - ollama/ollama: Get up and runnin

### 如何在本地部署 DeepSeek 大语言模型 #### 准备工作 为了成功安装并运行 DeepSeek-R1,确保环境满足最低硬件需求以及软件依赖项。这通常意味着拥有足够的 GPU 显存来支持所选框架下的模型加载与推理过程[^1]。 #### 安装必要组件 对于想要利用 Ollama、vLLM 或者 Hugging Face Transformers 来实现 DeepSeek-R1 部署的情况,需先完成对应库的设置: - **Ollama**: 参考官方文档获取最新版本安装指导。 - **vLLM**: 使用 pip 工具通过命令 `pip install vllm` 进行快速集成。 - **Transformers**: 执行 `pip install transformers` 命令引入该模块至项目环境中。 #### 获取预训练权重文件 访问指定资源链接下载所需的预训练参数集,并将其放置于合适路径下以便后续调用。注意确认下载地址的有效性和安全性[^2]。 #### 编写启动脚本 创建 Python 脚本来初始化模型实例并与之交互。下面是一个简单的例子展示如何基于上述任一平台加载 DeepSeek 模型: ```python from transformers import AutoModelForCausalLM, AutoTokenizer model_name_or_path = "path_to_your_downloaded_model" tokenizer = AutoTokenizer.from_pretrained(model_name_or_path) model = AutoModelForCausalLM.from_pretrained(model_name_or_path) def generate_response(prompt_text): inputs = tokenizer(prompt_text, return_tensors="pt").input_ids.cuda() outputs = model.generate(inputs, max_length=50, num_return_sequences=1) result = tokenizer.decode(outputs[0], skip_special_tokens=True) print(result) if __name__ == "__main__": prompt = input("Enter your query here:") generate_response(prompt) ``` 此段代码展示了当用户输入查询时,程序会返回由 DeepSeek 生成的回答。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值