自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 基于Huggingface TRL库使用GRPO复现DeepSeek-R1推理模型

2025年1月,杭州深度求索公司(DeepSeek)发布了推理模型DeepSeek-R1,让推理模型的关注度快速的飙升,学术圈也掀起一股复现DeepSeek-R1的浪潮。当然DeepSeek-R1的火热还是有其本质原因的:比如创新的强化学习GRPO、MoE/MLA/MTP、高性能低成本、开源等。本任务要求在低成本条件下,基于Qwen基座模型,使用OpenAI的GSM8K数据集(一个包含8,500道左右高质量的小学数学题),使用强化学习GRPO复现类似DeepSeek-R1的推理模型。

2025-05-14 15:43:58 197

原创 通过Unsloth微调Qwen2.5-VL实现复杂数学公式的OCR

Unsloth是一个专为大型语言模型(LLM)设计的微调框架,旨在提高微调效率并减少显存占用。它通过手动推导计算密集型数学步骤并手写 GPU 内核,实现了无需硬件更改即可显著加快训练速度。主要功能点:高效微调:Unsloth通过深度优化,使 LLM 的微调速度提高 2-5 倍,显存使用量减少约 80%,且准确度无明显下降。广泛的模型支持:目前支持的模型包括目前各类主流模型,用户可以根据需求适合的模型进行微调。

2025-05-01 20:09:59 993

原创 LLaMA Factory零代码轻松高效微调大模型

该WebUI全称LLaMA Board,使用Gradio库构造,其交互体验效果好,支持模型训练全链路的一站式平台,一个好的功能离不开好的交互,Stable Diffusion的大放异彩的重要原因除了强大的内容输出效果,就是它有一个好的WebUI,这个LLaMA Board将训练大模型主要的链路和操作都在一个页面中进行了整合,所有参数都可以可视化地编辑和操作。初次浏览,发现界面是不是很复杂,功能很多,不用担心,我们后续会通过具体的模型微调案例,来来介绍如何使用。,训练后的模型权重将会保存在此目录中。

2025-04-22 18:04:06 1185

原创 零基础手搓代码教会大模型微调,基于DeepSeek + 思维链医疗数据集进行微调实操,精讲原理有机会你也能训练出AI问诊模型

预训练阶段:在大量的无标签数据上进行训练,让模型学习到语言的统计规律和一般知识。这个过程中模型能够学习到词语的语义、句子的语法结构、以及文本的一般知识和上下文信息。然后得到预训练/基座模型(Base Model),模型具备通用的预测能力。如DeepSeek-V2/V3。微调阶段:预训练好的模型在特定任务的数据上进行进一步的训练。这个过程通常涉及对模型的权重进行微小的调整,以使其更好地适应特定的任务,得到最终能力各异的模型,例如DeepSeek-Coder、DeepSeek-Math等模型。接着我们再细分。

2025-04-16 16:11:43 1220

原创 Qwen2.5-Omni多模态模型全套部署和体验

Qwen 2.5-Omni是一个端到端的多模态大语言模型,旨在感知包括文本、图像、音频和视频在内的多种模态,同时以流式的方式生成文本和自然语音响应。其中7B参数的版本是公开的。全能创新架构:提出了一种全新的Thinker-Talker架构,是一种端到端的多模态模型,端到端是一种系统设计方法,指的是从输入到输出的完整流程由一个统一的模型或系统完成,无需中间环节的人工干预或分阶段处理。在传统机器学习中,复杂任务通常被拆分为多个子任务(如预处理、特征提取、分类等),每个子任务由独立模块处理。

2025-04-11 17:08:45 1460 2

原创 端侧部署llama.cpp+人机视觉对话应用

llama.cpp 是基于C/C++开发的高效推理框架,专为在边缘设备(如树莓派、Jetson、x86工控机)上运行量化版大模型(如Llama 3、DeepSeek)优化。其通过GGUF量化格式和ARM NEON/GPU加速,实现在资源受限环境中低延迟执行大模型推理,支持纯CPU、CPU+GPU混合推理。工业质检:在Jetson Orin上实时解析设备日志并生成报告教育机器人:树莓派5运行7B模型实现多轮对话隐私医疗:本地处理患者问诊记录,避免数据出域。

2025-04-10 20:50:28 823

原创 Ollama搭建DeepSeek-R1私有大模型服务

随着人工智能技术的快速发展,大模型(LLM)已越来越突出它的重要性。然而,这些大模型的运行通常需要大量的计算资源和复杂的部署流程。为了解决这个问题,Ollama应运而生。Ollama是一个开源的大模型服务工具,旨在帮助用户在其本地机器、端边设备上轻松部署和运行开源大型语言模型,如Llama, Qwen, DeepSeek, Phi, Mistral, Gemma系列等。它提供了一个用户友好的界面和强大的功能,使用户能够轻松地部署和管理这些模型。

2025-04-09 18:32:59 872

原创 vLLM+QwQ生产环境部署及Transformers推理

vLLM 是一个快速且易于使用的库,专为大型语言模型 (LLM) 的推理和部署而设计。最先进的服务吞吐量使用 PagedAttention 高效管理注意力键和值的内存量化:GPTQ, AWQ, INT4, INT8, 和 FP8具有高吞吐量服务以及各种解码算法,包括并行采样、束搜索等支持张量并行和流水线并行的分布式推理提供与 OpenAI 兼容的 API 服务器。

2025-04-08 16:32:38 1051

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除