- 博客(2271)
- 资源 (6)
- 收藏
- 关注
原创 τ-bench:重塑Agent评估的工具-代理-用户交互基准
《τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains》
2025-12-06 10:47:24
785
原创 论文解析《Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking》
论文解读
2025-12-05 11:18:42
599
原创 ALIGN:自动化接口生成,破解Agent-Environment对齐难题
本文的方法提出ALIGN框架,通过自动化生成对齐接口来缓解LLM代理在交互决策任务中的代理-环境错位问题,该框架作为轻量级wrapper,无需修改代理逻辑或环境代码,
2025-12-04 14:55:29
656
原创 《Simulating Environments with Reasoning Models for Agent Training》论文深度解读
这篇论文不只是提出新框架,更在挑战我们对“环境工程”的认知:为什么不让LLM本身成为模拟器?它用最小工程换取最大scalability,实证上让开源模型逼近甚至超越GPT-4o。
2025-12-03 13:49:59
979
原创 DreamGym:通过经验合成实现代理学习的可扩展化
基于论文《Scaling Agent Learning via Experience Synthesis》
2025-12-03 11:22:31
751
原创 Agent-R1:用端到端强化学习训练强大LLM代理
系统性地扩展了马尔可夫决策过程(Markov Decision Process, MDP)框架,并引入了一个模块化、可扩展的训练框架Agent-R1,用于RL驱动的LLM代理训练
2025-11-22 18:48:16
813
原创 探索代码空间的AI驱动代理:AIDE论文解读
论文介绍了AIDE(AI-Driven Exploration),一个基于大型语言模型(LLM)的机器学习工程代理,旨在自动化机器学习模型开发的试错过程。
2025-11-22 16:34:18
1230
原创 Self-Supervised Prompt Optimization (SPO)算法实现详细解释
无需外部参考 (如 ground truth 或人类反馈)
2025-11-22 15:36:07
657
原创 RAG 在 Qwen-Agent Memory 中的实现详解
RAG 不是一个独立的类,而是集成在 Memory 管理和 Agent 系统中,帮助代理(Agent)从文档中检索相关片段,避免将整个文档加载到 LLM 的上下文中,从而减少 token 消耗并提升响应准确性。
2025-10-30 10:20:44
1634
原创 在 Qwen-Agent 框架中,Agent、Tool 和 Memory三者是如何联动的?
Agent、Tool 和 Memory 的联动形成一个闭环流程:Agent 作为入口,利用 Memory 中的上下文调用 LLM 进行推理;LLM 决策是否触发 Tool;Tool 执行后结果反馈回 Memory;Memory 更新后供 Agent 继续使用。
2025-10-30 09:56:42
1256
原创 指数退避算法(Exponential Backoff Algorithm)详解:在agent中的应用
算法的基本思路是:当操作失败时,不立即重试,而是计算一个等待时间(delay),然后在该时间后重试。如果再次失败,等待时间会以指数形式增长(通常乘以一个基数,如 2),直到达到最大限制或成功为止。
2025-10-30 09:35:11
1018
原创 LLM 中的代码解释器:以 Qwen-Agent 为例详解其必要性和实现原理
Qwen-Agent 的code_interpreter是框架的内置工具,基于 Python 实现,非沙盒化(即在用户 Python 环境中运行)。它通过工具注册和函数调用机制集成到代理中。
2025-10-28 16:51:34
1083
原创 激活检查点:Transformer 训练内存杀手,哪些层用?怎么选?
激活检查点(Activation Checkpointing,也叫 Gradient Checkpointing)
2025-10-25 17:52:33
929
原创 梯度累积(Gradient Accumulation):小 GPU 也能玩转大批量训练的“攒钱秘籍”
PyTorch 聪明:用 mean loss,backward() 自动给 mean g,无需手动 /B。但原理一样:求“平均方向”,让大班小班公平。
2025-10-25 17:21:21
1006
原创 NVMe 卸载(ZeRO-Infinity):DeepSpeed 的“无限内存”黑科技
把模型参数、梯度、优化器状态“卸载”(offload)到磁盘上
2025-10-24 16:50:55
1211
原创 Chromium 是什么?
Chromium 是一个由 Google 主导开发的开源网页浏览器项目,它以 BSD 许可证等多重自由版权协议发行,并开放源代码。 它于 2008 年随 Google Chrome 浏览器的推出而正式启动,是 Chrome 的开源基础,许多现代浏览器的核心引擎都基于它。
2025-10-23 17:56:38
604
原创 Electron 运行时架构详解:Node.js 主进程 + Chromium 浏览器进程
Electron 的 Node.js 主进程 + Chromium 渲染进程架构巧妙地将 Web 开发扩展到桌面,实现了“一次编写,到处运行”的理念。
2025-10-23 17:50:54
968
1
原创 现在的claude code 等编程模型,如果输入长度超过上下文长度应该怎么做?
面试官问的其实是考察你对长文本/长代码处理 pipeline 设计能力。
2025-10-22 18:45:37
1361
原创 DeepSpeed ZeRO Stage 2:梯度分区原理详解与示例
reduce-scatter 后:GPU0 只收 g1 的平均值((g1_0 + g1_1 + g1_2 + g1_3)/4),删 g2~g4。GPU1 收 g2 的平均,依此类推。
2025-10-19 15:00:03
1381
原创 KV Cache Memory 在 Inference/Rollout 中的作用 & Rollout 概念详解
VERL 用它做 PPO 等算法的“rollout worker”:从初始状态(如用户查询)开始,模型一步步生成 token,直到结束(e.g., EOS 标记)。
2025-10-18 18:39:14
935
原创 火山引擎(Volcengine)对 Ascend NPU 的支持
Ascend NPU 以高性能矩阵运算和能效著称(如 Ascend 910B 提供 400 TFLOPS FP16 计算),Volcengine 通过 Volcano 调度器、VERL(Volcengine Reinforcement Learning)框架和 vLLM-Ascend 等工具,提供无缝支持。
2025-10-18 18:16:40
1031
原创 VERL 中的 FSDP(Fully Sharded Data Parallel)通俗介绍
通过将模型参数、梯度、优化器状态“切片”分摊到多 GPU/NPU 上,每个设备只存 1/N 份(N=设备数),从而让更大模型(如 14B 参数的 Qwen)能在有限硬件上跑起来。
2025-10-18 17:26:19
1187
原创 DeepSpeed 与 FSDP 对比
FSDP(Fully Sharded Data Parallel)是 PyTorch 原生的全分片数据并行框架,受 DeepSpeed 启发(尤其是 ZeRO Stage 3),旨在简化 PyTorch 生态中的分布式训练,提供高效的模型分片和内存管理。
2025-10-18 15:06:33
994
原创 ZeRO Stage 1(简称 ZeRO-1)通俗介绍
只分区优化器状态(比如 Adam 的动量和方差)。这是入门级,适合模型参数和梯度还能塞下,但优化器状态吃太多内存的情况。
2025-10-18 14:59:53
1153
原创 《LoRA Without Regret》LoRA 无遗憾:参数高效微调的低秩适应在后训练中的样本与计算效率
2025年9月,Thinking Machines AI团队在他们的博客《LoRA Without Regret》中,对LoRA进行了系统性剖析。他们通过严谨的实验,揭示了LoRA在典型后训练场景下的“低遗憾体制”(Low-Regret Regime):在样本效率和计算效率上,LoRA能与FullFT不相上下,甚至在某些条件下更胜一筹。
2025-10-06 16:41:23
951
原创 Linux 管道命令 |:让命令链式协作的魔法符号
管道(Pipe)是一种巧妙的机制,让一个命令的输出无缝流向下一个命令的输入,就像水管一样串联起数据流。
2025-10-06 09:48:26
1032
原创 Git 冲突(merge conflict)格式详解
冲突格式是 Git 用于标记这些差异的标准方式,主要通过特殊的分隔符(markers)来表示不同版本的内容。下面我将从格式结构、标记含义、示例、不同风格以及解析方法等方面进行深入说明。
2025-10-06 09:33:32
874
原创 探索Linux命令:xargs的强大与实用——以格式化C++代码为例
可以从标准输入(stdin)读取数据,将其拆分成参数,并传递给另一个命令执行
2025-10-05 19:23:08
568
原创 CI/CD 在软件开发 DevOps 中的作用
在软件开发中,CI(Continuous Integration,持续集成)和 CD(Continuous Deployment,持续部署)是 DevOps 实践的核心组成部分,它们通过自动化工具(如 GitHub Actions)来提升开发效率、代码质量和部署可靠性。
2025-10-05 14:51:45
901
原创 Cppcheck:C/C++ 代码静态分析工具的使用指南
Cppcheck是一个免费的开源工具,由Daniel Marjamäki开发,主要用于C和C++代码的静态分析。它不像GCC或Clang那样编译代码,而是直接解析源文件,检查常见的错误模式
2025-10-05 11:26:46
1160
1
原创 Clang-Tidy 中的 CERT 检查规则详解:提升 C++ 代码安全性的利器
幸运的是,我们有 Clang-Tidy 这个强大的工具。它是 LLVM 项目的一部分,能够在编译时静态分析代码,并强制执行 CERT 规则。
2025-10-05 10:44:38
830
原创 GSPO实际例子:一步步拆解训练流程,以及GRPO过程例子模拟
GRPO呢?每个token的权重基于单个样本(下一个token分布),没法真正修正分布,只引入高方差噪声。长序列下噪声累积,剪裁机制还放大它,导致崩溃。论文观察:一旦崩,调超参、换查询、回滚checkpoint都救不了——这是设计bug,不是调参问题。
2025-10-04 15:41:31
1171
李永乐线代强化笔记2020年.rar
2020-10-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅