自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

阿正的梦工坊

https://github.com/shizhengLi

  • 博客(2271)
  • 资源 (6)
  • 收藏
  • 关注

原创 Claude Code使用智谱GLM 4.6 API Key用法总结

claude + glm 4.6

2025-12-06 16:35:05 213

原创 τ-bench:重塑Agent评估的工具-代理-用户交互基准

《τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains》

2025-12-06 10:47:24 785

原创 论文解析《Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking》

论文解读

2025-12-05 11:18:42 599

原创 ALIGN:自动化接口生成,破解Agent-Environment对齐难题

本文的方法提出ALIGN框架,通过自动化生成对齐接口来缓解LLM代理在交互决策任务中的代理-环境错位问题,该框架作为轻量级wrapper,无需修改代理逻辑或环境代码,

2025-12-04 14:55:29 656

原创 软件开发中的代码审查缩写:LGTM、SGTM 等实用术语大盘点

LGTM:Looks Good To Me,看起来不错,审查通过!

2025-12-04 13:53:36 551

原创 《Simulating Environments with Reasoning Models for Agent Training》论文深度解读

这篇论文不只是提出新框架,更在挑战我们对“环境工程”的认知:为什么不让LLM本身成为模拟器?它用最小工程换取最大scalability,实证上让开源模型逼近甚至超越GPT-4o。

2025-12-03 13:49:59 979

原创 从交互学习时代看LLM Agent环境扩展:综述

环境扩展的GEF分类:三阶段五维度

2025-12-03 12:37:23 789

原创 DreamGym:通过经验合成实现代理学习的可扩展化

基于论文《Scaling Agent Learning via Experience Synthesis》

2025-12-03 11:22:31 751

原创 Agent-R1:用端到端强化学习训练强大LLM代理

系统性地扩展了马尔可夫决策过程(Markov Decision Process, MDP)框架,并引入了一个模块化、可扩展的训练框架Agent-R1,用于RL驱动的LLM代理训练

2025-11-22 18:48:16 813

原创 探索代码空间的AI驱动代理:AIDE论文解读

论文介绍了AIDE(AI-Driven Exploration),一个基于大型语言模型(LLM)的机器学习工程代理,旨在自动化机器学习模型开发的试错过程。

2025-11-22 16:34:18 1230

原创 Self-Supervised Prompt Optimization (SPO)算法实现详细解释

无需外部参考 (如 ground truth 或人类反馈)

2025-11-22 15:36:07 657

原创 RAG 在 Qwen-Agent Memory 中的实现详解

RAG 不是一个独立的类,而是集成在 Memory 管理和 Agent 系统中,帮助代理(Agent)从文档中检索相关片段,避免将整个文档加载到 LLM 的上下文中,从而减少 token 消耗并提升响应准确性。

2025-10-30 10:20:44 1634

原创 在 Qwen-Agent 框架中,Agent、Tool 和 Memory三者是如何联动的?

Agent、Tool 和 Memory 的联动形成一个闭环流程:Agent 作为入口,利用 Memory 中的上下文调用 LLM 进行推理;LLM 决策是否触发 Tool;Tool 执行后结果反馈回 Memory;Memory 更新后供 Agent 继续使用。

2025-10-30 09:56:42 1256

原创 指数退避算法(Exponential Backoff Algorithm)详解:在agent中的应用

算法的基本思路是:当操作失败时,不立即重试,而是计算一个等待时间(delay),然后在该时间后重试。如果再次失败,等待时间会以指数形式增长(通常乘以一个基数,如 2),直到达到最大限制或成功为止。

2025-10-30 09:35:11 1018

原创 LLM 中的代码解释器:以 Qwen-Agent 为例详解其必要性和实现原理

Qwen-Agent 的code_interpreter是框架的内置工具,基于 Python 实现,非沙盒化(即在用户 Python 环境中运行)。它通过工具注册和函数调用机制集成到代理中。

2025-10-28 16:51:34 1083

原创 激活检查点:Transformer 训练内存杀手,哪些层用?怎么选?

激活检查点(Activation Checkpointing,也叫 Gradient Checkpointing)

2025-10-25 17:52:33 929

原创 梯度累积(Gradient Accumulation):小 GPU 也能玩转大批量训练的“攒钱秘籍”

PyTorch 聪明:用 mean loss,backward() 自动给 mean g,无需手动 /B。但原理一样:求“平均方向”,让大班小班公平。

2025-10-25 17:21:21 1006

原创 NVMe 卸载(ZeRO-Infinity):DeepSpeed 的“无限内存”黑科技

把模型参数、梯度、优化器状态“卸载”(offload)到磁盘上

2025-10-24 16:50:55 1211

原创 Chromium 是什么?

Chromium 是一个由 Google 主导开发的开源网页浏览器项目,它以 BSD 许可证等多重自由版权协议发行,并开放源代码。 它于 2008 年随 Google Chrome 浏览器的推出而正式启动,是 Chrome 的开源基础,许多现代浏览器的核心引擎都基于它。

2025-10-23 17:56:38 604

原创 Electron 运行时架构详解:Node.js 主进程 + Chromium 浏览器进程

Electron 的 Node.js 主进程 + Chromium 渲染进程架构巧妙地将 Web 开发扩展到桌面,实现了“一次编写,到处运行”的理念。

2025-10-23 17:50:54 968 1

原创 现在的claude code 等编程模型,如果输入长度超过上下文长度应该怎么做?

面试官问的其实是考察你对长文本/长代码处理 pipeline 设计能力。

2025-10-22 18:45:37 1361

原创 DeepSpeed ZeRO Stage 3:参数分区,让大模型训练“零负担”

模型参数也切分

2025-10-20 18:40:06 975

原创 DeepSpeed ZeRO Stage 2:梯度分区原理详解与示例

reduce-scatter 后:GPU0 只收 g1 的平均值((g1_0 + g1_1 + g1_2 + g1_3)/4),删 g2~g4。GPU1 收 g2 的平均,依此类推。

2025-10-19 15:00:03 1381

原创 KV Cache Memory 在 Inference/Rollout 中的作用 & Rollout 概念详解

VERL 用它做 PPO 等算法的“rollout worker”:从初始状态(如用户查询)开始,模型一步步生成 token,直到结束(e.g., EOS 标记)。

2025-10-18 18:39:14 935

原创 火山引擎(Volcengine)对 Ascend NPU 的支持

Ascend NPU 以高性能矩阵运算和能效著称(如 Ascend 910B 提供 400 TFLOPS FP16 计算),Volcengine 通过 Volcano 调度器、VERL(Volcengine Reinforcement Learning)框架和 vLLM-Ascend 等工具,提供无缝支持。

2025-10-18 18:16:40 1031

原创 VERL 中的 FSDP(Fully Sharded Data Parallel)通俗介绍

通过将模型参数、梯度、优化器状态“切片”分摊到多 GPU/NPU 上,每个设备只存 1/N 份(N=设备数),从而让更大模型(如 14B 参数的 Qwen)能在有限硬件上跑起来。

2025-10-18 17:26:19 1187

原创 DeepSpeed 与 FSDP 对比

FSDP(Fully Sharded Data Parallel)是 PyTorch 原生的全分片数据并行框架,受 DeepSpeed 启发(尤其是 ZeRO Stage 3),旨在简化 PyTorch 生态中的分布式训练,提供高效的模型分片和内存管理。

2025-10-18 15:06:33 994

原创 ZeRO Stage 1(简称 ZeRO-1)通俗介绍

只分区优化器状态(比如 Adam 的动量和方差)。这是入门级,适合模型参数和梯度还能塞下,但优化器状态吃太多内存的情况。

2025-10-18 14:59:53 1153

原创 DeepSpeed 通信系统:通俗解释代码与原理

reduce_scatter

2025-10-18 13:49:34 808

原创 LoRA 初始化策略详解:A=0 与 B为高斯分布如何确保平稳梯度传播?

算出来B的梯度为0,不是A的梯度为0,请注意。

2025-10-06 17:10:10 1061

原创 LoRA为什么有效?有证明吗?

你是否好奇:LoRA为什么这么“灵”?它真的只是一个工程小把戏,还是有坚实的理论支撑?

2025-10-06 16:57:11 1201

原创 《LoRA Without Regret》LoRA 无遗憾:参数高效微调的低秩适应在后训练中的样本与计算效率

2025年9月,Thinking Machines AI团队在他们的博客《LoRA Without Regret》中,对LoRA进行了系统性剖析。他们通过严谨的实验,揭示了LoRA在典型后训练场景下的“低遗憾体制”(Low-Regret Regime):在样本效率和计算效率上,LoRA能与FullFT不相上下,甚至在某些条件下更胜一筹。

2025-10-06 16:41:23 951

原创 Linux 管道命令 |:让命令链式协作的魔法符号

管道(Pipe)是一种巧妙的机制,让一个命令的输出无缝流向下一个命令的输入,就像水管一样串联起数据流。

2025-10-06 09:48:26 1032

原创 Git 冲突(merge conflict)格式详解

冲突格式是 Git 用于标记这些差异的标准方式,主要通过特殊的分隔符(markers)来表示不同版本的内容。下面我将从格式结构、标记含义、示例、不同风格以及解析方法等方面进行深入说明。

2025-10-06 09:33:32 874

原创 探索Linux命令:xargs的强大与实用——以格式化C++代码为例

可以从标准输入(stdin)读取数据,将其拆分成参数,并传递给另一个命令执行

2025-10-05 19:23:08 568

原创 CI/CD 在软件开发 DevOps 中的作用

在软件开发中,CI(Continuous Integration,持续集成)和 CD(Continuous Deployment,持续部署)是 DevOps 实践的核心组成部分,它们通过自动化工具(如 GitHub Actions)来提升开发效率、代码质量和部署可靠性。

2025-10-05 14:51:45 901

原创 Cppcheck:C/C++ 代码静态分析工具的使用指南

Cppcheck是一个免费的开源工具,由Daniel Marjamäki开发,主要用于C和C++代码的静态分析。它不像GCC或Clang那样编译代码,而是直接解析源文件,检查常见的错误模式

2025-10-05 11:26:46 1160 1

原创 Clang-Tidy 中的 CERT 检查规则详解:提升 C++ 代码安全性的利器

幸运的是,我们有 Clang-Tidy 这个强大的工具。它是 LLVM 项目的一部分,能够在编译时静态分析代码,并强制执行 CERT 规则。

2025-10-05 10:44:38 830

原创 GSPO实际例子:一步步拆解训练流程,以及GRPO过程例子模拟

GRPO呢?每个token的权重基于单个样本(下一个token分布),没法真正修正分布,只引入高方差噪声。长序列下噪声累积,剪裁机制还放大它,导致崩溃。论文观察:一旦崩,调超参、换查询、回滚checkpoint都救不了——这是设计bug,不是调参问题。

2025-10-04 15:41:31 1171

原创 强化学习中的目标函数J_GRPO到底有什么用?

这只是一个公式而已,我知道它的定义,但它具体在训练中到底有什么用?

2025-10-04 15:15:38 732

李永乐线代强化笔记2020年.rar

李老师对出题形式、考试重点了如指掌,解题思路极其灵活,辅导针对性极强,效果优良,成绩显著,受到广大学员的交口称赞!这是笔者自己的笔记,整理成pdf版,方便大家复习使用。

2020-10-27

李永乐线代基础班笔记.zip

李永乐线性代数基础班笔记2020年。用过了都说好!好在思路与题型的延伸方面。举一反三(举一反N也不夸张)

2020-09-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除