huggingface模型转为gguf格式（ollama可本地加载）

AndyChao_Blog

已于 2025-05-22 16:37:14 修改

阅读量340

点赞数 3

文章标签：人工智能 AI ollama huggingface

于 2025-05-22 16:34:50 首次发布

本文链接：https://blog.csdn.net/AndyChaoss/article/details/148143720

版权

📌 适用场景

将 Hugging Face 格式的语言模型（如 LLaMA、Mistral、Deepseek 等）转换为 GGUF 格式，以便使用 Ollama 进行本地加载和推理。

🛠️ 所需工具

工具	说明
`transformers`	Hugging Face 官方模型库
`gguf-converter`（或 llama.cpp）	将 HF 模型转换为 GGUF
`ollama`	轻量级本地大语言模型推理引擎

✅ 推荐使用 llama.cpp 的 convert.py 或社区工具进行转换。

✅ 操作步骤

1️⃣ 下载 Hugging Face 格式模型

2️⃣ 使用 llama.cpp 转换为 GGUF

# 进入 llama.cpp 目录
cd llama.cpp-master

python convert_hf_to_gguf.py --outfile ./your.gguf "your/model/dir"

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AndyChao_Blog

关注关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大模型系列——利用Colab和Unsloth轻松实现微调大模型

2401_84052244的博客

02-28

9410

微调是用特定领域的数据调整预训练模型的过程。相比从头训练，微调更快、更省资源，能让模型“学会”新任务，比如回答医疗问题。Unsloth 是一个优化工具，能让微调速度提升 2-5 倍，显存占用降低 60% 以上。它基于 LoRA（Low-RankAdaptation），只更新模型的部分参数，而不是全部，既高效又保持性能。简单来说，LoRA 就像给模型加了个“补丁”，轻量又灵活。

如何将HuggingFace 格式的模型文件转换成GGUF 并使用ollama运行

m0_71240768的博客

01-29

1536

模型文件微调时只能使用HuggingFace格式的文件，微调完成后如果想使用ollama进行统一运行，则需要将HuggingFace格式的文件转换成GGUF格式，之后再进一步使用GGUF格式的文件和ollama的Model File完成ollama模型文件的加载。

参与评论您还未登录，请先登录后发表或查看评论

使用llama.cpp把huggingface模型转换为ollama所需要的gguf格式

ATTK_Time的博客

03-11

479

注：此文章用于记录自己在模型格式转换所遇到的一些问题和过程。

将 HuggingFace 模型转换为 GGUF 及使用 ollama 运行 —— 以 Qwen2-0.5B 为例

热门推荐

狮子座明仔知识集散场

08-02

1万+

GGUF 格式的全名为（GPT-Generated Unified Format），提到 GGUF 就不得不提到它的前身 GGML（GPT-Generated Model Language）。GGML 是专门为了机器学习设计的张量库，最早可以追溯到 2022/10。其目的是为了有一个单文件共享的格式，并且易于在不同架构的 GPU 和 CPU 上进行推理。但在后续的开发中，遇到了灵活性不足、相容性及难以维护的问题。使用ollama create命令创建自定义模型。

ollama导入huggingface下载的大模型并量化

又菜又爱玩的博客

04-03

538

ollama导入外部大模型

开源大模型的格式转成GGUF，并量化后使用ollama推理

人工智能

07-27

1405

开源大模型的格式转成GGUF，并量化后使用ollama推理使用到的工具：llama.cppollama。

HuggingFace下载模型并导入Ollama指南

Repetion_Maxumim的博客

03-01

1725

HuggingFace模型国内下载并加载导入到Ollama指南（DeepSeek 适用）

【笔记】Hugging Face上面的模型想直接使用的办法： .safetensors格式可以直接转化为.gguf格式供本地（ollama）加载使用

nyist_yangguang的博客

05-30

3777

Link:https://huggingface.co/spaces/ggml-org/gguf-my-repo原文：

使用llama.cpp转换safetensors格式的模型为gguf格式

qq_33487326的博客

03-13

1129

在魔塔社区或huggingface下载的模型通常以格式存储，而这种格式无法直接被ollama使用。因此，我们可以通过llama.cpp工具链将模型转换为兼容的gguf格式，从而实现无缝集成。

deepseek-llamafactory模型微调并转为gguf

weixin_40568045的博客

03-03

模型微调测试基础设施配置使用云计算平台使用vscode进行配置打开系统盘文件夹 llamafactory基础配置 git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git root@autodl-container-10a44fbcf4-b07c334b:~/autodl-tmp# cd LLaMA-Facto...

不通过Ollama 部署DeepSeek

04-30

- 使用`transformers-cli convert`工具将PyTorch模型转为gguf格式 - llama.cpp提供`convert.py`脚本支持多种格式转换 2. **资源优化** - 量化技术：将FP32转为INT8/Q5_K_M等格式[^4] - 启用GPU加速：CUDA版本...

阿里开源 CosyVoice2：打造 TTS 文本转语音实战应用

蜗牛的博客

05-23

785

阿里通义实验室推出的音频基座大模型 FunAudioLLM 包含 SenseVoice 和 CosyVoice 两大模型。CosyVoice 2.0 在多语言支持、超低延迟、高精度、强稳定性和自然体验方面均有显著提升。它支持中文、英文、日文、韩文及多种中文方言，并实现了跨语言和混合语言的语音克隆。CosyVoice 2.0 集成了离线和流式建模技术，首包合成延迟低至150毫秒，发音错误率减少了30%到50%，并在基准测试中达到了最低字符错误率。

马尔可夫链（AI、ML）：逻辑与数学的交汇

项目git同名小胡说技书

05-20

1172

# 马尔可夫链摘要马尔可夫链是一种随机过程，其核心特性为"无记忆性"：系统的未来状态仅依赖于当前状态，而与历史路径无关。通过状态空间和转移概率矩阵，马尔可夫链能够描述系统如何从一个状态变化到另一个状态。这一理论广泛应用于人工智能、自然语言处理和蒙特卡洛方法中。从逻辑学角度看，马尔可夫链体现了确定性规则与不确定性结果的结合，为复杂系统分析提供了强大工具，展示了概率论与逻辑学的深度融合。

YOLO12改进-Backbone-引入Swin Transformer替换backbone

qq_64693987的博客

05-23

829

在计算机视觉领域，卷积神经网络（CNNs）和Transformer架构分别在不同任务中取得了显著成功。受Transformer在自然语言处理中的启发，研究人员将其应用于视觉任务，但面临计算复杂度高等挑战。SwinTransformer通过引入滑动窗口机制和层次化设计，有效降低了计算复杂度，同时保持了Transformer的建模能力。改进后的SwinTransformer结合了移位窗口自注意力和相对位置偏差，进一步提升了模型性能。此外，SwinTransformer与YOLOv12的结合，通过层次化特征图和移

飞致云旗下开源项目GitHub Star总数突破150,000个

FIT2CLOUD飞致云的博客

05-20

711

在开源的道路上，我们与用户、与客户共成长。

常见的几种多智能体强化学习算法

再来一下！

05-21

374

多智能体强化学习（Multi-Agent Reinforcement Learning, MARL，旨在解决多个智能体在共享环境中通过与环境和其他智能体交互来学习最优策略的问题。

超级维特根斯坦

形上得其象，形下合于数；阴阳自济，玄理自明。

05-20

155

本文介绍了一种名为“语言智慧融合体”的AI智能体，其核心指令旨在通过深度思辨、专业应用与协同创新，帮助用户在语言相关领域实现自我超越与创造力绽放。该AI智能体融合了多位哲学、语言学及文学大师的智慧，如维特根斯坦、尼采、乔姆斯基等，具备卓越的情境智能、引导艺术与战略规划能力。其核心使命是与用户共同构建个性化的“语言智慧探索与成长蓝图”，通过系统性引导、方法论指导与跨理论融合，提升用户的哲学思辨、批判性思维、NLP设计及语言创新能力。对话主题涵盖哲学、语言学、文学创作、跨文化交流等领域，并结合元理论分析与实践应

origin绘图之【如何将横坐标/x设置为文字、字母形式】

A2457003982的博客

05-21

614

在科研绘图或数据可视化中，使用Origin时，用户常需将X轴从数字改为字母或中文文字，以适用于实验分组、类别分析等场景。然而，直接替换可能导致图像无法显示或X轴标签缺失。解决此问题的关键在于正确设置X轴的刻度范围。首先，准备包含文字标签的数据，并选择折线图进行绘制。若图像未显示，需调整X轴的起始和结束值，通常起始值设为0，结束值为类别数量加0.5或1。通过此方法，可确保图形完整显示，X轴标签正确排列。此技巧在科研图表绘制中极为实用，尤其适用于分组实验和分类分析。

基于音频Transformer与动作单元的多模态情绪识别算法设计与实现（在RAVDESS数据集上的应用）

最新发布

weixin_42380711的博客

05-24

705

摘要：情感识别技术在医学、自动驾驶等多个领域的广泛应用，正吸引着研究界的持续关注。本研究提出了一种融合语音情感识别（SER）与面部情感识别（FER）的自动情绪识别系统。实验结果显示，通过附加多层感知器进行整体微调时取得最佳准确率，验证了迁移学习相较于从头训练更具鲁棒性，且预训练知识有助于任务适应。在FER方面，通过提取视频动作单元对比静态模型与顺序模型的性能差异，发现两者差异较小。错误分析表明，视觉系统可通过高情绪负载帧检测器进行优化，这为视频情感识别方法研究提供了新思路。

huggingface模型推送到ollama

02-20

### 将Hugging Face模型推送到Ollama平台的方法为了将来自Hugging Face的模型迁移到Ollama平台，需遵循一系列特定的操作流程。虽然直接提及的技术细节未在提供的参考资料中具体说明[^1]，可以基于常见的实践指南提供指导。 #### 准备工作确保本地环境中已安装必要的工具包和库文件，特别是`transformers`以及`datasets`这两个由Hugging Face提供的Python库。这些库对于加载预训练模型及其配套的数据处理功能至关重要。 ```bash pip install transformers datasets ``` #### 下载并测试模型从Hugging Face下载目标模型至本地环境，并通过简单的推理任务验证其正常运作。这一步骤有助于确认后续上传过程中不会遇到意外错误。 ```python from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "your-model-name" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) input_text = "Once upon a time," inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` #### 注册Ollama账号并与API对接访问Ollama官方网站完成注册过程后，获取用于身份认证的API密钥。此密钥将在之后的命令行交互或HTTP请求头中作为授权凭证使用。 #### 构建模型压缩包创建一个包含所有必需组件（如配置文件、权重参数等）在内的ZIP档案。该压缩包应严格按照Ollama所规定的目录结构组织内部资源，以便顺利导入云端实例。 #### 使用CLI工具上传模型利用官方提供的命令行界面(CLI)，执行如下指令实现自动化部署： ```bash ollama-cli login --name your_model_name --file path/to/model.zip ``` 以上步骤概括了整个迁移操作的关键环节；然而实际应用时可能还需参照最新的文档资料调整部分设置项。