自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 transformer系列:#3 深度解析多头注意力

(等于 Key 和 Value 的尺寸):三个线性层用来生成 Query、Key 和 Value 矩阵时,各自使用的权重的尺寸(我们的例子里,查询尺寸用了 3)。所以,最终注意力分数矩阵里的每个格子,都对应一个 Query(也就是一个目标序列词)与所有 Key(输入序列词)和所有 Value(输入序列词)之间的交互。在解码器栈中,目标序列首先被送入输出嵌入和位置编码,该过程会为目标序列中的每个词生成一个编码表示,该表示捕捉了每个词的含义和位置。:嵌入向量的宽度(我们的例子里用了宽度 6)。

2026-05-06 09:07:20 378

原创 transformer进阶之路:#2 工作原理详解

编码器和解码器嵌入层位置编码层编码器堆栈包含多个编码器。多头注意力层前馈层解码器栈包含多个解码器。两个多头注意力层前馈层线性层Softmax层。为了理解每个组件的作用,我们以训练一个翻译任务为例,一步步走过 Transformer 的工作流程。我们只用一个训练样本:输入序列是英文 "You are welcome",目标序列是西班牙语 "De nada"。

2026-04-29 09:15:23 367

原创 transformer进阶之路:#1 整体概述

transformer 架构擅长处理本质上具有顺序性的文本数据。它以文本序列作为输入,并生成另一个文本序列作为输出。例如,将输入的英文句子翻译成西班牙语。它的核心是一系列编码器层和解码器层。为避免混淆,我们将单个层称为「编码器」或「解码器」,而将一组编码器层称为「编码器堆栈」或「解码器堆栈」。编码器栈和解码器栈各自都有对应的嵌入层,用于处理各自的输入。最后,还有一个输出层来生成最终的输出。所有编码器和解码器在架构上都是相同,但是他们之间的权重是不共享的。编码器。

2026-04-27 08:29:16 326

原创 LLM核心参数配置指南:原理篇

本篇从底层原理出发,以 Next Token Prediction 为核心,拆解了 LLM API 核心参数的作用:从 Linear Layer、 Softmax 函数出发,系统解析了 temperature、top_p、frequency_penalty、presence_penalty 对概率分布的调控逻辑,以及 max_tokens、stop、n、best_of、stream 对生成流程与输出形式的控制机制,揭示了各参数如何通过精准干预模型计算节点,实现对输出确定性、多样性、长度与成本的灵活调节。

2026-04-20 14:59:50 374

原创 LLM核心参数配置指南:基础篇

欢迎关注公zh: AI-Frontiers和大语言模型聊天的时候,你是不是也觉得,光会写提示词还不够?有时候模型答得乱七八糟,真不是你的问题。其实不管是直接用对话框,还是调API,有个小细节特别容易被忽略——配置参数。你可以把这些参数想象成模型身上的调节旋钮,拧对了地方,回答的质量一下子就上来了。反过来,要是完全不管,或者凭感觉乱拧,那结果可就真不好说了。假设将调用大模型比作烹饪美食,那么参数调优就如同掌控火候的核心技艺——火候不足,菜肴便寡淡无味、缺乏层次;火候过旺,食材则易被烧焦、失去本味。

2026-04-15 09:04:16 388

原创 transformer学习资源汇总

欢迎关注公zh: AI-Frontiers。

2026-04-10 17:33:41 602 2

原创 Context Engineering要过时?AI圈新风口「Harness Engineering」,OpenAI/Anthropic齐发力

Harness Engineering是指设计、构建和迭代一套完整的运行环境与制度体系,包含工具接口、沙箱环境、架构约束、自动化测试、反馈循环及监控仪表盘,旨在引导和约束AI智能体,使其能够自主、可靠地完成复杂长周期任务,而无需人类实时干预。Harness Engineering的核心公式可以表达为,揭示了Harness Engineering的本质:模型负责原始推理能力,而Harness负责除此之外的一切。

2026-04-01 09:10:39 401

原创 Google 迎来「DeepSeek 时刻」:TurboQuant算法实现3bit无损、8×加速、6×压缩、零预处理

原文:欢迎关注公zh: AI-Frontiers3月24日,谷歌在官方博客中推出革命性的压缩算法TurboQuant,相关内容将分别在 ICLR 2026和AISTATS 2026国际顶会发表。一经公布,引发了技术圈纷纷热议。更夸张的是,3月25日美股一开盘,存储芯片板块就集体迎来 「黑色时刻」,遭遇重挫。TurboQuant算法通过几何视角的向量量化手段,从根本上解决自回归推理中的「内存墙」难题。

2026-03-27 22:18:21 699

原创 GLM技术复盘:21篇论文深度解读智谱模型家族

回顾智谱AI从2022年到2026年的发布轨迹,可以观察到技术演进的三个阶段:首先是基座对标期(2022-2024),通过GLM-130B和GLM-4系列证明了国产大模型在知识理解与双语对齐上的竞争力;其次是能力深化期(2025),通过引入「Thinking」模式和多模态专家系统,将大模型的能力推向复杂推理与视觉感知的极限;最后是智能体转型期(2026),以GLM-5系列为代表,将智能体所需的长期规划、工具调用的稳定性以及环境自适应性作为第一优先级。

2026-03-23 16:59:20 856

原创 GraphRAG开源生态全景:6大主流开源项目,微软/蚂蚁/港大项目同台PK

应对TB级别以上数据,利用其水平扩展能力和高可用架构支撑底层图检索。

2026-03-17 08:21:29 575

原创 万字长文解读Qwen进化史:27篇论文深度复盘Qwen模型家族

原文:欢迎关注公zh: AI-Frontiers自2023年生成式人工智能迎来爆发以来,LLM技术的发展已从单纯的堆训练数据、堆参数量,转向了架构效率、模态融合以及长上下文推理能力的深水区。在这场全球性的技术角逐中,阿里巴巴通义实验室推出的 Qwen(通义千问)系列模型,凭借其极其密集且高质量的开源迭代节奏,构建了一个庞大生态系统,覆盖了从端侧微型模型到云端巨型旗舰、从纯文本处理到全模态实时交互。

2026-03-12 12:34:51 779

原创 收藏!AI代理全家桶:MCP/Skills/Agent /OpenClaw,原理+操作指南一步到位

原文:欢迎关注公zh: AI-Frontiers2024年底以来,AI领域经历了一场从对话式交互向代理式执行的范式转变。LLM不仅能知识问答,逐渐演变为能感知环境、制定计划并利用外部工具执行复杂任务的智能代理。在这一演化进程中,模型上下文协议(Model Context Protocol, MCP)、Skills规范、多样化的Agent开发框架以及 OpenClaw这样的集成化平台,共同构建了一个日益繁荣且复杂的生态系统。

2026-03-09 18:20:54 569

原创 收藏! 2026最强开源AI编程工具清单:从代码补全到自主智能体

原文:自2022年chatgpt横空出世以来,编程领域正经历着诞生以来最深刻的变革,实现了从「代码补全」到 「自主化智能体」的跨越。早期的AI辅助工具,如GitHub Copilot,主要聚焦于单行或代码块的生成,而当前的AI编程工具致力于构建能够理解整个代码库、自主规划任务、执行终端命令并进行自我调试的综合性系统。这种转变催生了Vibe Coding(氛围编程)的概念,由Andrej Karpathy于2025年2月2日在社交平台X上首次提出。

2026-03-02 13:47:42 752

原创 从ResNet到mHC:DeepSeek重构残差连接,额外开销仅6.7%,附复现代码

原文:关注公zh: AI-Frontiers论文标题:mHC: Manifold-Constrained Hyper-Connections论文地址:https://arxiv.org/pdf/2512.24880延续在节假日搞事情的习惯,2026年元旦期间,Deepseek发表了一篇新论文,提出了名为mHC(Manifold-Constrained Hyper-Connections,流形约束超连接)的新架构。

2026-02-23 22:12:51 712

原创 收藏!RAG核心工具大全: 7大解析工具+向量模型+数据库+检索排序

特性/工具MarkerPyMuPDFDoclingMinerUPaddleOCR核心架构混合策略(规则+视觉模型)深度学习流水线 (Surya + Texify)底层PDF流解析 (C++绑定)混合架构 (统一DOM + VLM)深度学习流水线 (PDF-Extract-Kit)深度学习 (PP-Structure / OCR)端到端生成式VLM (MoE架构)解析策略分区版面检测 -> Markdown生成文本块/跨度提取对象模型重构 -> 导出。

2026-02-13 21:01:20 713

原创 3年,从0到全球领跑:万字长文拆解DeepSeek大模型技术演进

发布日期模型名称核心参数/架构关键技术创新对标/性能亮点2023/11/2FIM预训练, 项目级上下文代码能力超越CodeLlama-34B2023/11/297B/67B稠密架构, 中英双语对齐67B打破LLaMA 2 70B垄断2023/12/18N/A3D一致性生成高质量文生3D资产2024/2/57BGRPO强化学习, 拒绝采样数学能力逼近GPT-4,RL技术验证2024/3/111.3B/7B混合视觉编码器真实世界视觉理解,高分辨率处理。

2026-02-12 16:09:36 1107

原创 收藏!LLM开发全链路:5大步骤+15大框架,从数据治理到RLHF一文通关

在上一篇中,我们重点讨论了LLM训练技术的开源框架,并未涉及LLM训练的其他环节。在人工智能领域从模型中心化向数据中心化范式转移的背景下,LLM的成功不仅依赖于模型参数规模的爆炸式增长,更取决于全链路工程化的精细程度。这一链路涵盖了从海量异构数据的精炼、超大规模分布式环境下的模型训练、特定任务驱动的指令微调,到最终模型输出与人类价值观对齐的RLHF阶段。如近的开源生态系统已涌现出一批高性能、模块化且落地性强的代码框架,这些工具极大地降低了开发者训练、微调和部署私有化大模型的门槛。

2026-01-26 07:06:48 909

原创 收藏!LLM-RL训练框架:3大流派+6大框架,一文搞定

2022年OpenAI发布Chatgpt之后,LLM成为了街头巷尾热议的话题。其中,LLM的训练和微调技术成为了这波技术浪潮的大功臣。在前面几篇中,我们详细介绍了LLM-RL训练、微调的核心算法原理。本篇将聚焦梳理LLM-RL开源 LLM-RL 训练框架。在LLM-RL训练和微调技术演进中,模型对齐技术从辅助微调手段成为决定模型推理、安全与指令遵循能力的核心;

2026-01-20 08:45:31 917

原创 小白也能看懂的LLM-RL算法:PPO/DPO/GRPO/GSPO

、「

2026-01-09 13:46:03 1295

原创 250个LLM 评估基准大盘点!从推理到多模态,一文看懂LLM考试大纲

选不对 LLM,业务落地全是坑!面对五花八门的大模型,你是否还在纠结:推理题太简单测不出差距?编程评估没标准?上线才发现安全不达标?核心痛点在于:缺乏系统化的评估标准。今天,给大家分享一个宝藏资源:250个 LLM 评估基准与数据集,覆盖推理、编程、对话、Agent 工具调用等多个维度,支持标签化分类筛选,帮你快速摸清模型底细,拒绝盲目选型。这个数据集最强大的地方在于,它把虚无缥缈的模型能力拆解成了。无论你的业务场景是什么,都能找到对应的考卷,关注,后台回复领取下面资料。

2025-12-29 11:52:06 532

原创 RAG效果差?7个指标让你的准确率大幅提升

RAG系统的核心流程包含检索-生成两大环节,其中,检索环节本质是排序任务:系统根据用户的查询意图,从海量知识库中筛选、排序相关上下文片段,最终返回相关度Top-K的结果作为模型生成答案的依据。想象这样的场景,当用户向RAG系统提问Transformer模型的核心创新点是什么?RAG系统的执行流程大致如下:a) 首先,从知识库中检索相关文档片段,包括注意力机制原理、编码器-解码器结构说明、与传统模型的差异对比等内容;b) 通过排序算法进一步筛选最贴合查询的片段优先呈现给生成模块;

2025-12-22 18:58:34 1214

原创 小白也能看懂的RLHF-PPO:原理篇

原文:在上一篇中,我们从直觉的层面阐述了RLHF,中间有许多不严谨的地方,这一篇将从更加严谨的理论层面介绍RLHF。这篇将从强化学习中的核心元素与LLM任务的对应关系开始,逐步引入RLHF解决了SFT中的什么问题。

2025-12-16 17:19:50 916

原创 RAG评测完整指南:指标、测试和最佳实践

RAG作为当下主流的LLM应用框架,将外挂的知识库(如网络数据、企业私有文档)、LLM内置的知识完美融合,有效解决LLM中存在的信息过时输出幻觉、行业数据隔离等痛点问题,产生更准确、更有用的结果。举个例子,对于一家公司的客服机器人,LLM是很难知道这家公司的产品功能、业务逻辑的。相反,RAG系统在用户提出问题时,会检索公司内部的产品或业务文档,将检索到的相关内容交给LLM,由LLM生成最终的答案。

2025-12-01 17:48:33 1231

原创 谷歌重磅出品!揭秘21种Agentic设计模式,AI从业者必备

原文: https://mp.weixin.qq.com/s/TQQBL1dUdxO7A9AzbmwS-A 关于本书该书作者Antonio Gulli,系统介绍了 AI Agent 系统的各种设计模式,预计 2025 年 12 月由 Springer 出版社出版,涵盖从基础到高级的 21 个核心模式,以及多个附录章节。主要内容包括提示链、路由、并行化等基础模式反思、工具使用、规划等进阶模式多智能体协作、记忆管理、知识检索等高级模式安全防护、评估监控等实践模式点击这里 谷歌重磅出品!揭秘21种Agenti

2025-11-24 16:28:44 672

原创 小白也能看懂的RLHF:基础篇

LLM写了两个版本,一个全是专业术语,一个口语化、通俗易懂,老人会反馈第二个更好。LLM在收到反馈后,就明白以后碰到类似需求该如何回答,这种能够精准遵从人类指令的能力,是RLHF的独特优势。上图中,每个示例都包含长文本输入、两个备选摘要、一个标签(用于指示人类更倾向于哪个摘要)。通过直接将人类偏好以标签形式传递给模型,确保其与人类判断保持一致。

2025-11-20 14:54:52 1076

原创 AI编程助手:Aider使用手册(中文版)

Aider 是一个终端中的 AI 结对编程工具,支持云与本地大语言模型,能为大型项目生成代码库地图以理解代码结构,兼容 100 多种编程语言,集成 Git 自动提交变更,可在 IDE 中使用,还支持图像、网页、语音交互及代码 linting 与测试等功能。本文将Aider的英文版使用手册进行了全文翻译(见),方便大家使用。,回复 aider 获取。

2025-11-13 16:27:58 2500

原创 Huggingface 214页训练手册:揭露构建世界级大语言模型的秘密

The Smol Training Playbook: The Secrets to Building World-Class LLMs》由 Hugging Face 团队于 2025 年 10 月 30 日发布,详情见https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook,聚焦的训练实践,揭示了训练顶尖 LLM 的真实挑战与关键决策。内容涵盖从。

2025-11-07 08:39:00 1720

原创 # 收藏!强化学习从入门到封神:5 本经典教材 + 8 大实战项目 + 7个免费视频,一站式搞定# 学习资源## 经典教材[**《大模型算法:强化学习、微调与对齐》**](https://

本篇教程大致介绍 Legged Gym 的结构,使用方法,并以一个二阶倒立摆为例来完成一次实际的强化学习训练。适合强化学习初学者复现。文档包含 ①强化学习基本概念 ②Legged Gym 环境安装 ③Legged Gym 代码结构介绍 ④二阶倒立摆训练项目代码解读。#强化学习 #智能体 #学习资源。

2025-11-03 21:55:32 1664

原创 小白也能看懂的RL-PPO

强化学习(Reinforcement Learning, RL)作为机器学习的重要分支,目标是让智能体(agent)与环境(environment)不断交互,学习任意环境状态下的最优行为策略(policy),最终实现期望累积回报(cumulative reward)的最大化。形式上,可通过价值函数(Value Function)或动作价值函数(Q 函数)迭代优化达成最大化累积回报。为了更好的说明什么是强化学习,以训练小狗学会坐下举例,当小狗听到主人"坐下" 的命令后坐下,小狗可以执行的动作是"坐下"、“地上

2025-10-31 21:22:50 798

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除