- 博客(8)
- 收藏
- 关注
原创 基于Huggingface TRL库使用GRPO复现DeepSeek-R1推理模型
2025年1月,杭州深度求索公司(DeepSeek)发布了推理模型DeepSeek-R1,让推理模型的关注度快速的飙升,学术圈也掀起一股复现DeepSeek-R1的浪潮。当然DeepSeek-R1的火热还是有其本质原因的:比如创新的强化学习GRPO、MoE/MLA/MTP、高性能低成本、开源等。本任务要求在低成本条件下,基于Qwen基座模型,使用OpenAI的GSM8K数据集(一个包含8,500道左右高质量的小学数学题),使用强化学习GRPO复现类似DeepSeek-R1的推理模型。
2025-05-14 15:43:58
197
原创 通过Unsloth微调Qwen2.5-VL实现复杂数学公式的OCR
Unsloth是一个专为大型语言模型(LLM)设计的微调框架,旨在提高微调效率并减少显存占用。它通过手动推导计算密集型数学步骤并手写 GPU 内核,实现了无需硬件更改即可显著加快训练速度。主要功能点:高效微调:Unsloth通过深度优化,使 LLM 的微调速度提高 2-5 倍,显存使用量减少约 80%,且准确度无明显下降。广泛的模型支持:目前支持的模型包括目前各类主流模型,用户可以根据需求适合的模型进行微调。
2025-05-01 20:09:59
993
原创 LLaMA Factory零代码轻松高效微调大模型
该WebUI全称LLaMA Board,使用Gradio库构造,其交互体验效果好,支持模型训练全链路的一站式平台,一个好的功能离不开好的交互,Stable Diffusion的大放异彩的重要原因除了强大的内容输出效果,就是它有一个好的WebUI,这个LLaMA Board将训练大模型主要的链路和操作都在一个页面中进行了整合,所有参数都可以可视化地编辑和操作。初次浏览,发现界面是不是很复杂,功能很多,不用担心,我们后续会通过具体的模型微调案例,来来介绍如何使用。,训练后的模型权重将会保存在此目录中。
2025-04-22 18:04:06
1185
原创 零基础手搓代码教会大模型微调,基于DeepSeek + 思维链医疗数据集进行微调实操,精讲原理有机会你也能训练出AI问诊模型
预训练阶段:在大量的无标签数据上进行训练,让模型学习到语言的统计规律和一般知识。这个过程中模型能够学习到词语的语义、句子的语法结构、以及文本的一般知识和上下文信息。然后得到预训练/基座模型(Base Model),模型具备通用的预测能力。如DeepSeek-V2/V3。微调阶段:预训练好的模型在特定任务的数据上进行进一步的训练。这个过程通常涉及对模型的权重进行微小的调整,以使其更好地适应特定的任务,得到最终能力各异的模型,例如DeepSeek-Coder、DeepSeek-Math等模型。接着我们再细分。
2025-04-16 16:11:43
1220
原创 Qwen2.5-Omni多模态模型全套部署和体验
Qwen 2.5-Omni是一个端到端的多模态大语言模型,旨在感知包括文本、图像、音频和视频在内的多种模态,同时以流式的方式生成文本和自然语音响应。其中7B参数的版本是公开的。全能创新架构:提出了一种全新的Thinker-Talker架构,是一种端到端的多模态模型,端到端是一种系统设计方法,指的是从输入到输出的完整流程由一个统一的模型或系统完成,无需中间环节的人工干预或分阶段处理。在传统机器学习中,复杂任务通常被拆分为多个子任务(如预处理、特征提取、分类等),每个子任务由独立模块处理。
2025-04-11 17:08:45
1460
2
原创 端侧部署llama.cpp+人机视觉对话应用
llama.cpp 是基于C/C++开发的高效推理框架,专为在边缘设备(如树莓派、Jetson、x86工控机)上运行量化版大模型(如Llama 3、DeepSeek)优化。其通过GGUF量化格式和ARM NEON/GPU加速,实现在资源受限环境中低延迟执行大模型推理,支持纯CPU、CPU+GPU混合推理。工业质检:在Jetson Orin上实时解析设备日志并生成报告教育机器人:树莓派5运行7B模型实现多轮对话隐私医疗:本地处理患者问诊记录,避免数据出域。
2025-04-10 20:50:28
823
原创 Ollama搭建DeepSeek-R1私有大模型服务
随着人工智能技术的快速发展,大模型(LLM)已越来越突出它的重要性。然而,这些大模型的运行通常需要大量的计算资源和复杂的部署流程。为了解决这个问题,Ollama应运而生。Ollama是一个开源的大模型服务工具,旨在帮助用户在其本地机器、端边设备上轻松部署和运行开源大型语言模型,如Llama, Qwen, DeepSeek, Phi, Mistral, Gemma系列等。它提供了一个用户友好的界面和强大的功能,使用户能够轻松地部署和管理这些模型。
2025-04-09 18:32:59
872
原创 vLLM+QwQ生产环境部署及Transformers推理
vLLM 是一个快速且易于使用的库,专为大型语言模型 (LLM) 的推理和部署而设计。最先进的服务吞吐量使用 PagedAttention 高效管理注意力键和值的内存量化:GPTQ, AWQ, INT4, INT8, 和 FP8具有高吞吐量服务以及各种解码算法,包括并行采样、束搜索等支持张量并行和流水线并行的分布式推理提供与 OpenAI 兼容的 API 服务器。
2025-04-08 16:32:38
1051
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人