智驭导师授AI-CSDN博客

原创基于Huggingface TRL库使用GRPO复现DeepSeek-R1推理模型

2025年1月，杭州深度求索公司（DeepSeek）发布了推理模型DeepSeek-R1，让推理模型的关注度快速的飙升，学术圈也掀起一股复现DeepSeek-R1的浪潮。当然DeepSeek-R1的火热还是有其本质原因的：比如创新的强化学习GRPO、MoE/MLA/MTP、高性能低成本、开源等。本任务要求在低成本条件下，基于Qwen基座模型，使用OpenAI的GSM8K数据集（一个包含8,500道左右高质量的小学数学题），使用强化学习GRPO复现类似DeepSeek-R1的推理模型。

2025-05-14 15:43:58 197

原创通过Unsloth微调Qwen2.5-VL实现复杂数学公式的OCR

Unsloth是一个专为大型语言模型（LLM）设计的微调框架，旨在提高微调效率并减少显存占用。它通过手动推导计算密集型数学步骤并手写 GPU 内核，实现了无需硬件更改即可显著加快训练速度。主要功能点：高效微调：Unsloth通过深度优化，使 LLM 的微调速度提高 2-5 倍，显存使用量减少约 80%，且准确度无明显下降。广泛的模型支持：目前支持的模型包括目前各类主流模型，用户可以根据需求适合的模型进行微调。

2025-05-01 20:09:59 993

原创 LLaMA Factory零代码轻松高效微调大模型

该WebUI全称LLaMA Board，使用Gradio库构造，其交互体验效果好，支持模型训练全链路的一站式平台，一个好的功能离不开好的交互，Stable Diffusion的大放异彩的重要原因除了强大的内容输出效果，就是它有一个好的WebUI，这个LLaMA Board将训练大模型主要的链路和操作都在一个页面中进行了整合，所有参数都可以可视化地编辑和操作。初次浏览，发现界面是不是很复杂，功能很多，不用担心，我们后续会通过具体的模型微调案例，来来介绍如何使用。，训练后的模型权重将会保存在此目录中。

2025-04-22 18:04:06 1185

原创零基础手搓代码教会大模型微调，基于DeepSeek + 思维链医疗数据集进行微调实操，精讲原理有机会你也能训练出AI问诊模型

预训练阶段：在大量的无标签数据上进行训练，让模型学习到语言的统计规律和一般知识。这个过程中模型能够学习到词语的语义、句子的语法结构、以及文本的一般知识和上下文信息。然后得到预训练/基座模型(Base Model)，模型具备通用的预测能力。如DeepSeek-V2/V3。微调阶段：预训练好的模型在特定任务的数据上进行进一步的训练。这个过程通常涉及对模型的权重进行微小的调整，以使其更好地适应特定的任务，得到最终能力各异的模型，例如DeepSeek-Coder、DeepSeek-Math等模型。接着我们再细分。

2025-04-16 16:11:43 1220

原创 Qwen2.5-Omni多模态模型全套部署和体验

Qwen 2.5-Omni是一个端到端的多模态大语言模型，旨在感知包括文本、图像、音频和视频在内的多种模态，同时以流式的方式生成文本和自然语音响应。其中7B参数的版本是公开的。全能创新架构：提出了一种全新的Thinker-Talker架构，是一种端到端的多模态模型，端到端是一种系统设计方法，指的是从输入到输出的完整流程由一个统一的模型或系统完成，无需中间环节的人工干预或分阶段处理。在传统机器学习中，复杂任务通常被拆分为多个子任务（如预处理、特征提取、分类等），每个子任务由独立模块处理。

2025-04-11 17:08:45 1460 2

原创端侧部署llama.cpp+人机视觉对话应用

llama.cpp 是基于C/C++开发的高效推理框架，专为在边缘设备（如树莓派、Jetson、x86工控机）上运行量化版大模型（如Llama 3、DeepSeek）优化。其通过GGUF量化格式和ARM NEON/GPU加速，实现在资源受限环境中低延迟执行大模型推理，支持纯CPU、CPU+GPU混合推理。工业质检：在Jetson Orin上实时解析设备日志并生成报告教育机器人：树莓派5运行7B模型实现多轮对话隐私医疗：本地处理患者问诊记录，避免数据出域。

2025-04-10 20:50:28 823

原创 Ollama搭建DeepSeek-R1私有大模型服务

随着人工智能技术的快速发展，大模型（LLM）已越来越突出它的重要性。然而，这些大模型的运行通常需要大量的计算资源和复杂的部署流程。为了解决这个问题，Ollama应运而生。Ollama是一个开源的大模型服务工具，旨在帮助用户在其本地机器、端边设备上轻松部署和运行开源大型语言模型，如Llama, Qwen, DeepSeek, Phi, Mistral, Gemma系列等。它提供了一个用户友好的界面和强大的功能，使用户能够轻松地部署和管理这些模型。

2025-04-09 18:32:59 872

原创 vLLM+QwQ生产环境部署及Transformers推理

vLLM 是一个快速且易于使用的库，专为大型语言模型 (LLM) 的推理和部署而设计。最先进的服务吞吐量使用 PagedAttention 高效管理注意力键和值的内存量化：GPTQ, AWQ, INT4, INT8, 和 FP8具有高吞吐量服务以及各种解码算法，包括并行采样、束搜索等支持张量并行和流水线并行的分布式推理提供与 OpenAI 兼容的 API 服务器。

2025-04-08 16:32:38 1051