AI-Frontiers-CSDN博客

原创 transformer系列：#3 深度解析多头注意力

（等于 Key 和 Value 的尺寸）：三个线性层用来生成 Query、Key 和 Value 矩阵时，各自使用的权重的尺寸（我们的例子里，查询尺寸用了 3）。所以，最终注意力分数矩阵里的每个格子，都对应一个 Query（也就是一个目标序列词）与所有 Key（输入序列词）和所有 Value（输入序列词）之间的交互。在解码器栈中，目标序列首先被送入输出嵌入和位置编码，该过程会为目标序列中的每个词生成一个编码表示，该表示捕捉了每个词的含义和位置。：嵌入向量的宽度（我们的例子里用了宽度 6）。

2026-05-06 09:07:20 378

原创 transformer进阶之路：#2 工作原理详解

编码器和解码器嵌入层位置编码层编码器堆栈包含多个编码器。多头注意力层前馈层解码器栈包含多个解码器。两个多头注意力层前馈层线性层Softmax层。为了理解每个组件的作用，我们以训练一个翻译任务为例，一步步走过 Transformer 的工作流程。我们只用一个训练样本：输入序列是英文 "You are welcome"，目标序列是西班牙语 "De nada"。

2026-04-29 09:15:23 367

原创 transformer进阶之路：#1 整体概述

transformer 架构擅长处理本质上具有顺序性的文本数据。它以文本序列作为输入，并生成另一个文本序列作为输出。例如，将输入的英文句子翻译成西班牙语。它的核心是一系列编码器层和解码器层。为避免混淆，我们将单个层称为「编码器」或「解码器」，而将一组编码器层称为「编码器堆栈」或「解码器堆栈」。编码器栈和解码器栈各自都有对应的嵌入层，用于处理各自的输入。最后，还有一个输出层来生成最终的输出。所有编码器和解码器在架构上都是相同，但是他们之间的权重是不共享的。编码器。

2026-04-27 08:29:16 326

原创 LLM核心参数配置指南：原理篇

本篇从底层原理出发，以 Next Token Prediction 为核心，拆解了 LLM API 核心参数的作用：从 Linear Layer、 Softmax 函数出发，系统解析了 temperature、top_p、frequency_penalty、presence_penalty 对概率分布的调控逻辑，以及 max_tokens、stop、n、best_of、stream 对生成流程与输出形式的控制机制，揭示了各参数如何通过精准干预模型计算节点，实现对输出确定性、多样性、长度与成本的灵活调节。

2026-04-20 14:59:50 374

原创 LLM核心参数配置指南：基础篇

欢迎关注公zh: AI-Frontiers和大语言模型聊天的时候，你是不是也觉得，光会写提示词还不够？有时候模型答得乱七八糟，真不是你的问题。其实不管是直接用对话框，还是调API，有个小细节特别容易被忽略——配置参数。你可以把这些参数想象成模型身上的调节旋钮，拧对了地方，回答的质量一下子就上来了。反过来，要是完全不管，或者凭感觉乱拧，那结果可就真不好说了。假设将调用大模型比作烹饪美食，那么参数调优就如同掌控火候的核心技艺——火候不足，菜肴便寡淡无味、缺乏层次；火候过旺，食材则易被烧焦、失去本味。

2026-04-15 09:04:16 388

原创 transformer学习资源汇总

欢迎关注公zh: AI-Frontiers。

2026-04-10 17:33:41 602 2

原创 Context Engineering要过时？AI圈新风口「Harness Engineering」，OpenAI/Anthropic齐发力

Harness Engineering是指设计、构建和迭代一套完整的运行环境与制度体系，包含工具接口、沙箱环境、架构约束、自动化测试、反馈循环及监控仪表盘，旨在引导和约束AI智能体，使其能够自主、可靠地完成复杂长周期任务，而无需人类实时干预。Harness Engineering的核心公式可以表达为，揭示了Harness Engineering的本质：模型负责原始推理能力，而Harness负责除此之外的一切。

2026-04-01 09:10:39 401

原创 Google 迎来「DeepSeek 时刻」：TurboQuant算法实现3bit无损、8×加速、6×压缩、零预处理

原文:欢迎关注公zh: AI-Frontiers3月24日，谷歌在官方博客中推出革命性的压缩算法TurboQuant，相关内容将分别在 ICLR 2026和AISTATS 2026国际顶会发表。一经公布，引发了技术圈纷纷热议。更夸张的是，3月25日美股一开盘，存储芯片板块就集体迎来「黑色时刻」，遭遇重挫。TurboQuant算法通过几何视角的向量量化手段，从根本上解决自回归推理中的「内存墙」难题。

2026-03-27 22:18:21 699

原创 GLM技术复盘：21篇论文深度解读智谱模型家族

回顾智谱AI从2022年到2026年的发布轨迹，可以观察到技术演进的三个阶段：首先是基座对标期（2022-2024），通过GLM-130B和GLM-4系列证明了国产大模型在知识理解与双语对齐上的竞争力；其次是能力深化期（2025），通过引入「Thinking」模式和多模态专家系统，将大模型的能力推向复杂推理与视觉感知的极限；最后是智能体转型期（2026），以GLM-5系列为代表，将智能体所需的长期规划、工具调用的稳定性以及环境自适应性作为第一优先级。

2026-03-23 16:59:20 856

原创 GraphRAG开源生态全景：6大主流开源项目，微软/蚂蚁/港大项目同台PK

应对TB级别以上数据，利用其水平扩展能力和高可用架构支撑底层图检索。

2026-03-17 08:21:29 575

原创万字长文解读Qwen进化史：27篇论文深度复盘Qwen模型家族

原文:欢迎关注公zh: AI-Frontiers自2023年生成式人工智能迎来爆发以来，LLM技术的发展已从单纯的堆训练数据、堆参数量，转向了架构效率、模态融合以及长上下文推理能力的深水区。在这场全球性的技术角逐中，阿里巴巴通义实验室推出的 Qwen（通义千问）系列模型，凭借其极其密集且高质量的开源迭代节奏，构建了一个庞大生态系统，覆盖了从端侧微型模型到云端巨型旗舰、从纯文本处理到全模态实时交互。

2026-03-12 12:34:51 779

原创收藏！AI代理全家桶：MCP/Skills/Agent /OpenClaw，原理+操作指南一步到位

原文:欢迎关注公zh: AI-Frontiers2024年底以来，AI领域经历了一场从对话式交互向代理式执行的范式转变。LLM不仅能知识问答，逐渐演变为能感知环境、制定计划并利用外部工具执行复杂任务的智能代理。在这一演化进程中，模型上下文协议（Model Context Protocol, MCP）、Skills规范、多样化的Agent开发框架以及 OpenClaw这样的集成化平台，共同构建了一个日益繁荣且复杂的生态系统。

2026-03-09 18:20:54 569

原创收藏! 2026最强开源AI编程工具清单：从代码补全到自主智能体

原文:自2022年chatgpt横空出世以来，编程领域正经历着诞生以来最深刻的变革，实现了从「代码补全」到「自主化智能体」的跨越。早期的AI辅助工具，如GitHub Copilot，主要聚焦于单行或代码块的生成，而当前的AI编程工具致力于构建能够理解整个代码库、自主规划任务、执行终端命令并进行自我调试的综合性系统。这种转变催生了Vibe Coding（氛围编程）的概念，由Andrej Karpathy于2025年2月2日在社交平台X上首次提出。

2026-03-02 13:47:42 752

原创从ResNet到mHC：DeepSeek重构残差连接，额外开销仅6.7%，附复现代码

原文:关注公zh: AI-Frontiers论文标题：mHC: Manifold-Constrained Hyper-Connections论文地址：https://arxiv.org/pdf/2512.24880延续在节假日搞事情的习惯，2026年元旦期间，Deepseek发表了一篇新论文，提出了名为mHC（Manifold-Constrained Hyper-Connections，流形约束超连接）的新架构。

2026-02-23 22:12:51 712

原创收藏！RAG核心工具大全: 7大解析工具+向量模型+数据库+检索排序

特性/工具MarkerPyMuPDFDoclingMinerUPaddleOCR核心架构混合策略（规则+视觉模型）深度学习流水线 (Surya + Texify)底层PDF流解析 (C++绑定)混合架构 (统一DOM + VLM)深度学习流水线 (PDF-Extract-Kit)深度学习 (PP-Structure / OCR)端到端生成式VLM (MoE架构)解析策略分区版面检测 -> Markdown生成文本块/跨度提取对象模型重构 -> 导出。

2026-02-13 21:01:20 713

原创 3年，从0到全球领跑：万字长文拆解DeepSeek大模型技术演进

发布日期模型名称核心参数/架构关键技术创新对标/性能亮点2023/11/2FIM预训练, 项目级上下文代码能力超越CodeLlama-34B2023/11/297B/67B稠密架构, 中英双语对齐67B打破LLaMA 2 70B垄断2023/12/18N/A3D一致性生成高质量文生3D资产2024/2/57BGRPO强化学习, 拒绝采样数学能力逼近GPT-4，RL技术验证2024/3/111.3B/7B混合视觉编码器真实世界视觉理解，高分辨率处理。

2026-02-12 16:09:36 1107

原创收藏！LLM开发全链路：5大步骤+15大框架，从数据治理到RLHF一文通关

在上一篇中，我们重点讨论了LLM训练技术的开源框架，并未涉及LLM训练的其他环节。在人工智能领域从模型中心化向数据中心化范式转移的背景下，LLM的成功不仅依赖于模型参数规模的爆炸式增长，更取决于全链路工程化的精细程度。这一链路涵盖了从海量异构数据的精炼、超大规模分布式环境下的模型训练、特定任务驱动的指令微调，到最终模型输出与人类价值观对齐的RLHF阶段。如近的开源生态系统已涌现出一批高性能、模块化且落地性强的代码框架，这些工具极大地降低了开发者训练、微调和部署私有化大模型的门槛。

2026-01-26 07:06:48 909

原创收藏！LLM-RL训练框架：3大流派+6大框架，一文搞定

2022年OpenAI发布Chatgpt之后，LLM成为了街头巷尾热议的话题。其中，LLM的训练和微调技术成为了这波技术浪潮的大功臣。在前面几篇中，我们详细介绍了LLM-RL训练、微调的核心算法原理。本篇将聚焦梳理LLM-RL开源 LLM-RL 训练框架。在LLM-RL训练和微调技术演进中，模型对齐技术从辅助微调手段成为决定模型推理、安全与指令遵循能力的核心；

2026-01-20 08:45:31 917

原创小白也能看懂的LLM-RL算法：PPO/DPO/GRPO/GSPO

、「

2026-01-09 13:46:03 1295

原创 250个LLM 评估基准大盘点！从推理到多模态，一文看懂LLM考试大纲

选不对 LLM，业务落地全是坑！面对五花八门的大模型，你是否还在纠结：推理题太简单测不出差距？编程评估没标准？上线才发现安全不达标？核心痛点在于：缺乏系统化的评估标准。今天，给大家分享一个宝藏资源：250个 LLM 评估基准与数据集，覆盖推理、编程、对话、Agent 工具调用等多个维度，支持标签化分类筛选，帮你快速摸清模型底细，拒绝盲目选型。这个数据集最强大的地方在于，它把虚无缥缈的模型能力拆解成了。无论你的业务场景是什么，都能找到对应的考卷，关注，后台回复领取下面资料。

2025-12-29 11:52:06 532

原创 RAG效果差？7个指标让你的准确率大幅提升

RAG系统的核心流程包含检索-生成两大环节，其中，检索环节本质是排序任务：系统根据用户的查询意图，从海量知识库中筛选、排序相关上下文片段，最终返回相关度Top-K的结果作为模型生成答案的依据。想象这样的场景，当用户向RAG系统提问Transformer模型的核心创新点是什么？RAG系统的执行流程大致如下：a) 首先，从知识库中检索相关文档片段，包括注意力机制原理、编码器-解码器结构说明、与传统模型的差异对比等内容；b) 通过排序算法进一步筛选最贴合查询的片段优先呈现给生成模块；

2025-12-22 18:58:34 1214

原创小白也能看懂的RLHF-PPO：原理篇

原文:在上一篇中，我们从直觉的层面阐述了RLHF，中间有许多不严谨的地方，这一篇将从更加严谨的理论层面介绍RLHF。这篇将从强化学习中的核心元素与LLM任务的对应关系开始，逐步引入RLHF解决了SFT中的什么问题。

2025-12-16 17:19:50 916

原创 RAG评测完整指南：指标、测试和最佳实践

RAG作为当下主流的LLM应用框架，将外挂的知识库（如网络数据、企业私有文档）、LLM内置的知识完美融合，有效解决LLM中存在的信息过时输出幻觉、行业数据隔离等痛点问题，产生更准确、更有用的结果。举个例子，对于一家公司的客服机器人，LLM是很难知道这家公司的产品功能、业务逻辑的。相反，RAG系统在用户提出问题时，会检索公司内部的产品或业务文档，将检索到的相关内容交给LLM，由LLM生成最终的答案。

2025-12-01 17:48:33 1231

原创谷歌重磅出品！揭秘21种Agentic设计模式，AI从业者必备

原文: https://mp.weixin.qq.com/s/TQQBL1dUdxO7A9AzbmwS-A 关于本书该书作者Antonio Gulli，系统介绍了 AI Agent 系统的各种设计模式，预计 2025 年 12 月由 Springer 出版社出版，涵盖从基础到高级的 21 个核心模式，以及多个附录章节。主要内容包括提示链、路由、并行化等基础模式反思、工具使用、规划等进阶模式多智能体协作、记忆管理、知识检索等高级模式安全防护、评估监控等实践模式点击这里谷歌重磅出品！揭秘21种Agenti

2025-11-24 16:28:44 672

原创小白也能看懂的RLHF：基础篇

LLM写了两个版本，一个全是专业术语，一个口语化、通俗易懂，老人会反馈第二个更好。LLM在收到反馈后，就明白以后碰到类似需求该如何回答，这种能够精准遵从人类指令的能力，是RLHF的独特优势。上图中，每个示例都包含长文本输入、两个备选摘要、一个标签（用于指示人类更倾向于哪个摘要）。通过直接将人类偏好以标签形式传递给模型，确保其与人类判断保持一致。

2025-11-20 14:54:52 1076

原创 AI编程助手：Aider使用手册（中文版）

Aider 是一个终端中的 AI 结对编程工具，支持云与本地大语言模型，能为大型项目生成代码库地图以理解代码结构，兼容 100 多种编程语言，集成 Git 自动提交变更，可在 IDE 中使用，还支持图像、网页、语音交互及代码 linting 与测试等功能。本文将Aider的英文版使用手册进行了全文翻译（见），方便大家使用。，回复 aider 获取。

2025-11-13 16:27:58 2500

原创 Huggingface 214页训练手册：揭露构建世界级大语言模型的秘密

The Smol Training Playbook: The Secrets to Building World-Class LLMs》由 Hugging Face 团队于 2025 年 10 月 30 日发布，详情见https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook，聚焦的训练实践，揭示了训练顶尖 LLM 的真实挑战与关键决策。内容涵盖从。

2025-11-07 08:39:00 1720

原创 # 收藏！强化学习从入门到封神：5 本经典教材 + 8 大实战项目 + 7个免费视频，一站式搞定# 学习资源## 经典教材[《大模型算法：强化学习、微调与对齐》](https://

本篇教程大致介绍 Legged Gym 的结构，使用方法，并以一个二阶倒立摆为例来完成一次实际的强化学习训练。适合强化学习初学者复现。文档包含 ①强化学习基本概念 ②Legged Gym 环境安装 ③Legged Gym 代码结构介绍 ④二阶倒立摆训练项目代码解读。#强化学习 #智能体 #学习资源。

2025-11-03 21:55:32 1664

原创小白也能看懂的RL-PPO

强化学习（Reinforcement Learning, RL）作为机器学习的重要分支，目标是让智能体（agent）与环境（environment）不断交互，学习任意环境状态下的最优行为策略（policy），最终实现期望累积回报（cumulative reward）的最大化。形式上，可通过价值函数（Value Function）或动作价值函数（Q 函数）迭代优化达成最大化累积回报。为了更好的说明什么是强化学习，以训练小狗学会坐下举例，当小狗听到主人"坐下" 的命令后坐下，小狗可以执行的动作是"坐下"、“地上

2025-10-31 21:22:50 798

分享AI前沿进展、底层原理和行业应用