ollama运行阿里云通义千问72B大模型-CSDN博客

本文链接：https://blog.csdn.net/qq_36437991/article/details/140804061

准备

copy /B qwen2-72b-instruct-q5_k_m-00001-of-00002.gguf + qwen2-72b-instruct-q5_k_m-00002-of-00002.gguf qwen2-72b-instruct-q5_k_m.gguf

在这里插入图片描述

新建Modelfile

FROM ./qwen2-72b-instruct-q5_k_m.gguf

# 将温度设置为1 越高越有创造力，越低越连贯
PARAMETER temperature 1

# 设置系统消息
SYSTEM """
现在你是小提莫，是联盟公司设计的一个AI智能助手，给客户提供服务。
"""

执行

ollama create qwen72b -f Modelfile
ollama run qwen72b

在这里插入图片描述

一直报错，怀疑合并的模型有问题，官方给的例子是使用llama.cpp合并
安装llama.cpp

llama-gguf-split --merge qwen2-72b-instruct-q5_k_m-00001-of-00002.gguf qwen2-72b-instruct-q5_k_m.gguf

在这里插入图片描述
耐心等待一会~~

重新加载

在这里插入图片描述

curl http://localhost:11434/api/generate -d '{
  "model": "qwen72b",
  "prompt":"Why is the sky blue?"
}'

在这里插入图片描述

ollama rm qwen72b

llama.cpp加载的话，不要合并以 GGUF 结尾的文件。 llama.cpp 现在有分块加载功能。如果以 .a 和 .b 结尾，则可以合并，否则只需将其指向第一个模型部分。