【记录】LLM|Windows 下 Hugging Face 上的模型的通用极简调用方式之一

这篇文是参考了这篇,然后后来自己试着搭了一下,记录的全部过程:【翻译】Ollama|如何在 Ollama 中运行 Hugging Face 中的模型_ollama 导入 huggingface-CSDN 博客
另外还参考了这篇:无所不谈,百无禁忌,Win11 本地部署无内容审查中文大语言模型 CausalLM-14B - 知乎

步骤 1:下载 GGUF 格式模型

这个格式才是量化版本,不用自己编译了。

具体内存或显存的要求你们可以自己考虑,我的电脑独显 3060 6G 的 14B 的量化模型没啥问题。

1 示例

  1. https://huggingface.co/TheBloke/CausalLM-14B-GGUF
    在这里插入图片描述
  2. https://huggingface.co/hfl/chinese-llama-2-13b-gguf/tree/main
    在这里插入图片描述

2 如何查找 GGUF 模型

  1. 一般情况你在链接后面加-gguf就有量化版本了;
  2. 找不到的话可以去 Github 的 README 里搜 GGUF 关键词,比如下图:
    在这里插入图片描述

步骤 2:部署

1 安装 Visual Studio installer 的 C++ 桌面开发组件

Visual Studio 2022 IDE - 适用于软件开发人员的编程工具
在这里插入图片描述

2 安装 cmake

https://cmake.org/download/

3 安装 CUDA(一般显卡都装了驱动,不过可能没装nvcc这些命令工具,nvcc没装就再装装)

https://developer.nvidia.com/cuda-downloads

4 下载llama.cpp

https://github.com/ggerganov/llama.cpp/releases,选自己的版本,我下载的是llama-b3772-bin-win-cuda-cu12.2.0-x64.zip。
在这里插入图片描述

5 解压llama-b3772-bin-win-cuda-cu12.2.0-x64.zip

进入目录,在这个目录下打开命令行工具,创建一个目录models,把gguf模型放进去(你也可以选择用绝对路径,一个意思)。
在这里插入图片描述

6 运行指令

.\llama-cli.exe -m models/causallm_14b.Q4_0.gguf -p "You are a helpful assistant" -cnv(改成你自己的模型名字)

步骤3:展示

在命令行去运行:

在这里插入图片描述

会运行得到这种东西:
在这里插入图片描述

运行的时候还能加上一些额外的参数,比如这样:.\llama-cli.exe -m models/causallm_14b.Q4_0.gguf -p "You are a helpful assistant" -cnv --chat-template llama2,这时指令模板就会发生变化,如下所示:

在这里插入图片描述

好了。

本账号所有文章均为原创,欢迎转载,请注明文章出处:https://shandianchengzi.blog.csdn.net/article/details/142438818。百度和各类采集站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯不定期对自己的博文进行修正和更新,因此请访问出处以查看本文的最新版本。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shandianchengzi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值