艾醒(AiXing-w)-CSDN博客

原创大模型原理剖析——解耦RoPE(旋转位置编码)的基本原理

本文介绍了改进传统旋转位置编码（RoPE）的解耦RoPE（DRoPE）方法。传统RoPE将位置与维度直接耦合，导致长序列场景下高频维度饱和、低频维度区分度不足的问题。解耦RoPE通过引入独立的缩放因子，拆分位置与维度的耦合关系，使不同维度的位置编码敏感度可独立调节。分组解耦形式分别设置高低频维度的缩放因子，平衡长短序列表现。代码实现显示该方法仅需轻微修改传统RoPE计算逻辑，不增加额外开销。解耦RoPE显著提升了模型对长序列的适应性，可广泛应用于长文本建模和大模型上下文扩展场景。

2025-12-23 13:59:43 530

原创大模型原理剖析——突破LLM效率瓶颈：多标记预测(MTP)技术深度解析与实战

多标记预测（MTP）技术通过单次前向传播同时预测多个后续词元，显著提升大语言模型的生成效率。相比传统逐词元生成方式，MTP在训练阶段增加信号密度，推理阶段结合推测解码可实现1.8-2.6倍加速。DeepSeek提出的链式MTP架构通过依赖前序表征保证文本连贯性。实战示例展示了PyTorch实现框架，包含共享编码器和多头预测结构。MTP在长文本生成等场景优势明显，是优化LLM性能的重要方向。

2025-12-23 11:05:02 515

原创大模型原理剖析——多头潜在注意力 (MLA) 详解

多头潜在注意力(MLA)是DeepSeek团队提出的创新机制，通过低秩压缩键值缓存至潜在空间，显著降低内存占用(减少53%)和计算开销(延迟降低53%)。MLA采用解耦RoPE、矩阵吸收优化等技术，在保持模型性能的同时支持长文本处理(32K token)。相比传统注意力机制，MLA具有内存效率高(缓存仅为MHA的1/8)、计算速度快等优势，特别适合大规模模型部署和多模态融合应用。该技术为AI系统的高效化开辟了新路径，有望成为下一代大模型的标准组件。

2025-12-22 20:52:28 657

原创大模型原理剖析——DeepSeek-V3深度解析：671B参数MoE大模型的技术突破与实践

DeepSeek-V3通过“MoE架构+MLA注意力+负载均衡+混合精度训练+MTP生成”的技术组合，在671B参数规模下实现了“能力强、速度快、成本低”的平衡；而DeepSeek-R1则填补了“深度逻辑分析”的场景空白。二者形成互补，覆盖了通用任务与专业推理的需求。

2025-12-22 20:09:41 614

原创大模型原理剖析——拆解预训练、微调、奖励建模与强化学习四阶段（以ChatGPT构建流程为例）

本文解析了ChatGPT四阶段构建流程：1）自监督预训练阶段通过海量文本学习语言规律；2）有监督微调阶段用标注指令数据训练模型理解人类需求；3）奖励建模阶段构建文本质量评估体系；4）强化学习阶段基于反馈优化模型输出。每个阶段在数据规模、算法类型和计算资源上都有特定要求，通过层层递进的训练最终实现模型的智能表现。该流程体现了从基础能力奠基到精细化优化的完整技术路径。

2025-12-21 17:14:35 853

原创大模型原理剖析——从技术特性、底层架构到落地逻辑的全维度解析

大模型的核心能力源于超大规模参数（百亿级以上）与自监督预训练（如掩码语言建模、自回归预测），结合万亿级多模态数据训练，实现通用语义理解。其独特涌现能力（如思维链推理）在参数突破阈值后显现。基于Transformer架构的注意力机制和残差连接支撑了模型的扩展性。行业现状呈现技术同质化（Transformer主导）与头部垄断（高算力/数据壁垒）。落地应用需结合场景特性，如文本生成（自回归预测）、智能客服（检索增强生成RAG）、多模态任务（跨模态对齐）等。大模型本质是数据与规模驱动的语义引擎，技术底层逻辑

2025-12-21 10:24:03 639

原创探索大语言模型（LLM）：MarkDown格式文档的结构化提取全流程

在做RAG工作中，数据处理的好坏往往决定着RAG效果的好坏。经过实际的测试，MarkDown格式的文本相较docx、pdf等格式无疑是最合适的，本篇将详细介绍MarkDown格式文档的结构化提取的全流程。

2025-10-24 12:48:31 943

原创大模型面试题剖析：LoRA高效微调的核心原理

大型语言模型（LLM）参数规模极大，全参数微调存在诸多难题：- **成本高昂**：需存储和更新所有模型参数副本，训练开销大。- **部署困难**：每个任务都要存储完整模型副本，占用大量存储空间。- **资源需求高**：对计算资源和GPU内存要求严苛，普通设备难以支撑。

2025-10-14 21:00:00 1576

原创大模型面试题剖析：全参微调与LoRA的资源占用解析

在深度学习模型的全参微调过程中，资源占用主要来自模型权重参数、优化器状态向量和梯度这几个关键部分，我们来详细看看它们的计算公式和含义。

2025-10-14 21:00:00 524

原创探索大语言模型（LLM）：大模型应用与对应的硬件选型一览表

不同系列的显卡，适合的人群和做的事不一样，看下面的表就清楚啦

2025-10-13 14:31:57 1358

原创大模型面试题剖析：大模型训练关键技术解析（从 RLHF 、RLAIH、DPO到 SFT）

在大模型的迭代优化过程中，如何让模型输出更符合人类预期、更适配特定任务，一直是技术研发的核心方向。本文将围绕人类反馈的强化学习（RLHF）、AI 反馈强化学习（RLAIH）、直接偏好优化（DPO）以及监督式微调（SFT）等关键技术展开，深入解析它们的核心原理、实施流程与技术特点，帮助读者理清大模型训练技术的脉络。

2025-10-13 14:10:59 590

原创探索大语言模型（LLM）：大模型微调方式全解析

在大模型落地实践中，微调（Fine-tuning）是连接通用预训练能力与特定任务需求的关键环节。通过微调，我们能让在海量数据上预训练的模型 “适配” 具体业务场景，比如客服对话、代码生成、医学文献分析等。本文将系统梳理六种主流微调方式，从核心原理、参数调整逻辑到适用场景，帮你快速掌握不同方案的选型思路。

2025-10-06 18:10:36 823 4

原创大模型面试题剖析：深入解析 Transformer 与 MoE 架构

在人工智能大模型飞速发展的今天，Transformer 架构无疑是撑起整个领域的 “基石”，而 MoE（Mixture of Experts）架构则凭借其独特的 “稀疏激活” 思路，成为突破大模型参数规模与计算效率瓶颈的 “关键引擎”。无论是 ChatGPT 背后的技术支撑，还是自动驾驶中的多模态感知，这两种架构都扮演着不可或缺的角色。本文将从核心原理、大模型设计逻辑和关键差异三个维度，带大家全面读懂 Transformer 与 MoE 架构。

2025-10-06 16:21:42 834

原创探索大语言模型（LLM）：一文读懂通用大模型的定义、特点与分类

在人工智能技术飞速发展的当下，通用大模型无疑是最受关注的领域之一。它凭借强大的能力打破了传统 AI 模型的局限，为各行业的智能化升级提供了全新可能。本文将从通用大模型的定义出发，深入剖析其核心特点，并详细梳理常见的分类方式，带大家全面认识这一前沿技术。

2025-10-06 15:48:57 1030

原创大模型面试题剖析：模型微调中冷启动与热启动的概念、阶段与实例解析

在人工智能模型的开发流程中，微调是让预训练模型适配特定任务、提升性能的关键环节。而在微调的启动方式上，“冷启动” 和 “热启动” 是两个高频出现但容易混淆的概念。很多刚接触模型微调的开发者，常会疑惑二者的核心区别的适用场景。今天这篇博客，就用通俗易懂的语言拆解这两个概念，结合实际微调案例，帮你搞懂什么时候该用冷启动，什么时候该选热启动。

2025-10-03 17:41:49 703

原创探索大语言模型（LLM）：Windows系统与Linux系统下的Ollama高级配置（修改模型地址、Service服务以及多卡均衡调用）

在之前的探索大语言模型（LLM）：Ollama快速安装部署及使用（含Linux环境下离线安装）中，已经介绍了ollama在Windows环境下和Linux环境下的安装，在本篇中将重点介绍Ollama的常用配置

2025-09-16 09:31:41 1290

原创大模型面试题剖析：RAG中的文本分割策略

在大语言模型（LLM）驱动的应用场景中，检索增强生成（RAG）技术愈发关键。而文本分割，作为RAG流程里的核心环节，直接影响着整个系统的性能与效果。接下来，我们将从文本分割的重要性、在RAG中的位置、不同分割方法以及实践建议等方面，进行全面且深入的剖析。

2025-09-15 15:00:16 1071

原创探索大语言模型（LLM）：Open-WebUI的安装

Open-WebUI 是一款专为大模型设计的开源可视化交互工具，它通过类 ChatGPT 的直观界面，让用户无需代码即可管理、调试和调用本地或云端的大语言模型（LLMs），成为私有化部署的便捷工具，本文将介绍如何部署并使用Open-WebUI。

2025-09-11 17:30:31 584 1

原创探索大语言模型（LLM）：Ollama快速安装部署及使用（含Linux环境下离线安装）

Ollama 是一个开源的本地化大模型运行平台，支持用户直接在个人计算机上部署、管理和交互大型语言模型（LLMs），无需依赖云端服务。而且其混合推理的特性也使得CPU和GPU的算力能够充分被使用，能够在同等配置下跑更大的模型，是非常适合个人学习使用的平台。本篇将详细介绍Ollama在各种平台上的详细安装过程以及应用。

2025-09-11 16:27:20 1465

原创大模型面试题剖析：大模型微调数据集构建

在大模型技术栈中，微调（Fine - tuning）是使预训练大模型适配特定领域任务的核心手段，而微调数据集作为模型训练的“燃料”，其构建的科学性与工程化程度直接决定微调效果上限。本文从流程、规模、工业实现、强化学习适配等维度，系统解析大模型微调数据集的构建技术。

2025-09-04 10:03:21 567

原创大模型面试题剖析：大模型多模态微调技术全解析

在人工智能领域，大模型多模态微调是让模型具备跨模态理解与生成能力的关键技术。它能使模型更好地适配特定场景，在视觉问答、医疗影像诊断等诸多领域发挥重要作用。下面将从多模态大模型结构、微调方法、数据准备、应用场景以及面临的挑战等方面展开详细解析。

2025-09-03 11:44:01 746

原创大模型面试题剖析：大模型多机多卡微调全解析

在大模型时代，模型参数规模呈爆炸式增长，单卡训练已难以满足需求，多机多卡微调成为大模型训练与优化的关键技术。本文将从多机多卡微调的核心原理、实现方式、工程实践要点以及面临的挑战等方面展开详细介绍。

2025-09-02 17:26:20 497

原创大模型面试题剖析：全量微调与 LoRA 微调

在当今的人工智能领域，大模型已成为推动众多应用发展的核心力量。然而，预训练的通用大模型往往无法直接完美适配各种特定的下游任务。为了让模型在特定任务中展现出卓越性能，微调技术应运而生。本文将深入探讨两种重要的微调方式：模型全量微调与 LoRA（Low-Rank Adaptation）高效微调，详细阐述它们的原理、优势以及在实际应用中的表现。

2025-09-01 16:40:31 699

原创大模型面试题剖析：PPO 与 GRPO 强化学习算法核心差异解析

在大模型与强化学习交叉的技术领域面试中，PPO（Proximal Policy Optimization）和GRPO这两种算法常常成为面试官考察候选人对强化学习算法理解深度与工程实践能力的重点。今天，我们就从面试高频问题出发，深入剖析二者的核心差异。

2025-08-31 16:16:17 761

原创大模型面试题剖析：大模型微调与训练硬件成本计算

在大模型技术浪潮中，“大模型微调&训练硬件成本评估” 已成面试高频考点。从底层逻辑到工程实践，每一处细节都可能成为面试官考察你技术深度的切入点。本文结合多场景知识，拆解核心考点，助力面试突围。

2025-08-27 16:27:22 908

原创大模型面试题剖析:Pre-Norm与Post-Norm的对比及当代大模型选择Pre-Norm的原因

在深度学习面试中，Transformer模型的结构细节和优化技巧是高频考点。其中，归一化技术（Normalization）的位置选择（Pre-Norm vs. Post-Norm）直接影响模型训练的稳定性，尤其是对于千亿参数级别的大模型。本文将结合梯度公式推导，对比两种技术的差异，并解析当代大模型偏爱Pre-Norm的核心原因。

2025-08-25 11:15:59 1855

原创大模型面试题剖析：模型微调和蒸馏核心技术拆解与考点梳理

在大模型求职面试的赛道上，模型微调和模型蒸馏是绕不开的核心技术考点。这两项技术，一个聚焦模型能力的精细打磨，一个着眼于知识迁移与效率优化，深刻影响着大模型在实际场景中的表现。下面，我们就从技术原理、面试考点等维度，深入拆解，助力大家在面试中精准应答。

2025-08-24 17:56:32 664

原创大模型面试题剖析：微调与 RAG 技术的选用逻辑

在大模型技术岗位面试里，“何时用微调技术，何时用 RAG 技术” 是高频考点。这不仅考察对两种技术的理解，更看能否结合场景权衡运用，下面结合要点深入分析。

2025-08-24 17:29:44 542

原创 huggingface入门:Tokenizer 核心参数与实战指南

在自然语言处理（NLP）工程实践中，“文本如何变成模型能读懂的输入” 是绕不开的核心问题。而在Hugging Face Transformers库中，Tokenizer正是解决这一问题的关键组件 —— 它像一座桥梁，一边连接着人类可读的原始文本，另一边连接着模型可处理的数值张量。今天我们就从参数视角拆解 Tokenizer，搞懂它的工作逻辑，以及如何根据任务灵活配置。

2025-08-24 16:45:15 1146

原创 huggingface入门:如何使用国内镜像下载huggingface中的模型

本文介绍了两种下载HuggingFace模型的镜像解决方案：ModelScope和HF-Mirror。针对网络问题导致的模型下载失败，推荐使用镜像网站结合迅雷下载工具。ModelScope提供模型搜索和Python下载功能，支持指定本地保存路径；HF-Mirror则提供Git和迅雷两种下载方式。两种镜像网站都能有效解决直接访问HuggingFace的困难，其中迅雷下载方式最为便捷高效。文中详细说明了各平台的具体操作步骤和下载方法。

2025-08-23 16:45:04 1087

原创探索大语言模型（LLM）：提升 RAG 性能的全方位优化策略

本文深入探讨了提升检索增强生成（RAG）系统性能的多维度优化策略。文章从标准RAG流程出发，系统介绍了查询增强（假设性问题生成、HyDE、子查询拆分）、索引优化（自动合并文档、分层索引）、检索器升级（句子窗口检索、元数据过滤）、生成器调优（提示压缩、chunk排序）以及全流程增强（自反思、Agent路由）五大类方法。这些技术通过优化RAG各环节，显著提高系统在准确性、效率和鲁棒性方面的表现。文章建议开发者根据具体业务场景（如数据规模、查询复杂度等）选择合适的技术组合，并提供了实践指导原则，为构建高性能RAG

2025-07-23 17:31:58 884

原创 RAG技术深度解密：AI界的“学霸外挂”如何炼成？

RAG（检索增强生成）技术通过"检索+生成"两步走，解决传统AI的时效性与准确性痛点。其核心流程包括：知识库预处理（文本分块与向量化）、问题检索（相似度匹配）、上下文生成（结合检索结果输出）。优势在于实时更新知识、减少幻觉、垂直领域适配及答案可追溯。典型案例显示，金融客服应用可提升90%响应效率。未来将向多模态检索、自我验证等方向进化，在医疗、法律、教育等领域具有广阔应用前景。

2025-06-25 12:03:18 344

原创 AI也会“列公式”了？CoT模型让AI学会像人类一样思考！

传统AI只能机械输出结果，而思维链(CoT)模型开创性地让AI展现推理过程。当面对用6个1组成最大数时，CoT会逐步分析得出11¹¹¹，而非简单拼接111111。这种技术突破体现在三大维度：1）将复杂问题拆解分步解决；2）生成可追溯的推理链条；3）具备自我修正能力。目前CoT已成功应用于医疗诊断、教育辅导等领域，虽仍存在推理链断裂等局限，但其透明化思考的特性正推动AI从计算工具向思

2025-06-25 12:02:08 647

原创微软CTO预言：MCP协议将重塑AI未来，成为智能体的“万能插座“

当AI大模型争相打造"超级大脑"时，微软首席技术官Kevin Scott却抛出一个颠覆性观点：未来的智能体不需要成为全能选手，只需通过MCP协议这个"万能插座"，就能与世界万物自由对话！

2025-06-19 15:33:44 512

原创探索大语言模型（LLM）：Lora vs. QLora：参数高效微调的双生花，你该选谁？

在大型语言模型（LLM）的微调江湖中，参数高效微调（PEFT）技术正以“四两拨千斤”的姿态颠覆传统训练范式。其中，Lora（Low-Rank Adaptation）与QLora（Quantized Low-Rank Adaptation）这对“双生花”凭借独特优势，成为开发者手中的利器。本文将深入剖析二者的技术内核、资源消耗与适用场景，助你在资源与精度间找到完美平衡点。

2025-06-19 15:23:15 931

原创每个行业都在被AI“重做一遍”！你不会提示词工程，就只能被淘汰！

制造业机器人精度超越老师傅，医疗AI诊断速度比专家快10倍，金融AI交易速度是人脑的百万倍...各行各业都在被AI重构。不会使用AI工具的职场人正面临淘汰危机：简历筛选被刷、面试答不上AI问题、升职被会AI的同事碾压。

2025-06-14 18:57:16 418

原创玩转计算机视觉——安装配置部署paddleOCR（英伟达环境与昇腾300IDUO环境）

本文详细介绍了在英伟达和昇腾300IDUO平台上安装PaddleOCR的完整流程。英伟达平台包括创建Python 3.10虚拟环境、安装Jupyter和PaddleOCR GPU版本。昇腾平台安装则包含驱动固件准备、CANN环境配置、源码下载、模型转换（paddle→onnx→mindir）以及最终测试验证。两种安装方式均提供了完整的命令操作步骤和官方参考链接，涵盖从环境搭建到模型推理的全过程，适合不同硬件平台上的OCR应用部署。

2025-06-13 11:37:10 944 5

原创探索大语言模型（LLM）：使用EvalScope进行模型评估（API方式）

EvalScope是阿里巴巴魔搭社区开发的开源模型评估框架，提供模型压力测试和性能评估功能。安装过程包括创建conda虚拟环境、安装Jupyter内核和EvalScope组件。压力测试可通过命令行执行，测试指标包括吞吐量、延迟等关键参数。性能评估支持在线数据集和本地数据集两种模式，通过Jupyter Notebook配置评估任务。评估结果可通过可视化看板查看，执行evalscope app命令后访问本地端口即可查看详细报告。该框架为开发者提供了一站式的模型评估解决方案

2025-06-10 09:42:19 2169