- 博客(81)
- 收藏
- 关注
原创 从 Subagent 到 Agent Team:多 Agent 系统里的两种协作方式
本文探讨了AI Agent协作的两种主要方式:Subagent和Agent Team。随着任务复杂度提升,单个Agent难以处理全流程工作,多Agent系统成为趋势。 Subagent模式中,主Agent将明确的子任务(如代码检查、测试分析等)委派给专项助手执行,保持主上下文的简洁。这种方式适合边界清晰、结果明确的任务。 Agent Team则模拟团队协作,多个Agent(规划、开发、测试等角色)围绕同一目标持续交流,适合复杂Bug排查、方案设计等需要多视角验证的任务。
2026-06-05 08:31:25
367
原创 用好 Codex Goal,关键就这三步
goal。可能已经有小伙伴用上它了。Goal 的使用方式很简单:在 prompt 开头输入/goal,再告诉 Codex 你希望它完成什么目标。接下来,Codex 就会围绕这个目标持续循环,直到它认为目标已经完成。Goal 模式不是普通的一轮对话,也不是你让模型“帮我改一下代码”那么简单。它更像是一个持续运行的 Agent 循环:执行动作、评估结果、判断是否达成目标,如果没有达成,就继续下一轮。所以,要想让 Codex Goal 真正跑得好,prompt 的写法也要稍微变一下。
2026-05-19 16:41:39
2335
原创 理解 Prefill Decode:AI 回答慢,慢在输入还是输出?
讲解大模型推理中的 Prefill 与 Decode 两个阶段,分析 AI 回答变慢的根源
2026-07-02 14:33:28
340
原创 Coding Agent 规则管理:CLAUDE.md、Skills、Hooks、Subagents 到底怎么选?
Claude Code 用分层设计把 Coding Agent 的规则拆成多种机制,让约束在合适的时机生效
2026-07-01 14:06:58
292
原创 MCP Server 怎么安全接给 AI Agent?以 OpenAI Secure MCP Tunnel 为例
OpenAI 让 Agent 能安全调用企业内网 MCP Server,同时不暴露任何公网入口。
2026-07-01 14:06:04
482
原创 论文解读:DeepSeek DSpark 在真实高并发推理服务中,如何保证 Token 生成又好又快?
DSpark 通过半自回归生成和置信度调度,加速 speculative decoding。
2026-06-30 14:26:35
273
原创 猫猫版 Pokémon GO 火了,GitHub 账号被毒舌审判,OpenAI、DeepSeek 发布新品
回顾 AI 与开发者生态动态,涵盖产品更新、社区创意玩法与工具发布
2026-06-29 14:48:24
183
原创 300 个 Agent 一起干活,Claude 负责验收:一次自进化的 Loop Engineering 实践
Kimi 2.6 Swarm 搭配 Opus 4.8 的最佳实践
2026-06-25 14:35:11
221
原创 SkillOpt 让你的 Skill 实现自进化
SkillOpt是微软开源的文本空间优化器,专为优化Agent的自然语言技能文档(如Markdown格式的skill.md)而设计。它不修改模型参数,而是通过“执行-反思-更新-验证”闭环,自动迭代出更鲁棒的`best_skill.md`,让技能持续适配真实任务,提升Agent在复杂流程、多源判断、跨项目迁移等场景中的稳定性与准确性。
2026-06-24 18:46:30
196
原创 工程实践|Warp 的 Loop Engineering:Agent 如何自己改进 Skill?
Warp 团队提出“双循环驱动”AI Agent进化:内循环(Inner Loop)自动分诊GitHub Issue;外循环(Outer Loop)从人类反馈中提炼规则,生成PR更新技能文件(SKILL.md)。技能即SOP,可审查、可回滚、持续迭代,让Agent越用越懂团队。
2026-06-24 18:27:01
299
原创 TokenPilot:让 LLM Agent 长会话成本降 60%+ 的上下文管理
TokenPilot 的价值在于,它把 Agent 上下文管理从文本压缩推进到了缓存友好型上下文管理。之前谈上下文优化,重点一般是哪些内容保留、哪些内容删除、哪些历史总结;TokenPilot 增加了一个更工程化的视角:内容在上下文里的组织方式,也会影响推理成本。
2026-06-24 17:27:44
437
原创 旧手机如何组建集群,跑点云计算?
UC San Diego 与 Google 合作推进“手机集群计算”:拆解退役手机主板,组建低碳小型计算集群。首期将部署 2000 台 Pixel 手机主板,替代传统服务器,为教学科研提供低成本云资源,兼顾环保与算力复用。
2026-06-23 08:42:59
389
原创 周一上线 | SpaceX 收购 Cursor、支付宝进入 AI 时代、DeepSeek 完成 500 亿元融资
本期「周一上线」聚焦AI从“聊天框”走向真实行动:Cursor、Copilot深化AI编程,支付宝“阿宝”;墨水屏跑Claude Code、树莓派入Docker、GLM-5.2开源支持1M上下文,展现AI落地的多元创新。
2026-06-23 08:25:33
334
原创 世界杯进球那一刻,体育 App 怎么扛住流量高峰?
本文以世界杯进球瞬间的流量高峰为切入点,剖析体育App背后的高并发工程体系:通过流量分层(静态/热点/动态/互动)、事件驱动、多模式数据更新(WebSocket/SSE/轮询)、分层缓存、消息队列削峰解耦、视频智能分发及精细化降级限流等策略,系统性保障核心体验。
2026-06-17 18:13:25
210
原创 周一上线|瑞幸把咖啡做进 CLI,Fable 5 短暂登场,Stonk Rider 骑上 K 线图
摘要 本期「周一上线」聚焦AI工具与开发者社区的创新动态。AI领域持续深入实际工作流,Gemini 3.5 Live Translate推出实时语音翻译,Kimi-K2.7-Code、DiffusionGemma等开源模型提升代码与文本生成效率,浏览器工具也增强Agent能力。社区创意层出不穷:瑞幸咖啡CLI、股票摩托游戏、终端黑洞动画等趣味项目涌现,还有调侃全栈开发的"前端兄弟快回来"梗图。
2026-06-17 08:35:42
243
原创 世界杯一粒进球被吹掉,背后可能有多少 AI?
世界杯进球被吹?背后是VAR+AI的精密协作:摄像机追踪29个身体点、球内传感器锁定传球瞬间、AI自动生成越位线与3D动画,再经VAR复核、主裁终裁。AI负责“测得准”,裁判负责“判得明”——技术让判罚更透明,却未消除规则语境下的争议。
2026-06-17 08:25:17
737
原创 面向 DeepSeek-V4 的 FlashMemory:长上下文 KV Cache 如何压到约 1/10
FlashMemory-DeepSeek-V4:通过前瞻稀疏注意力压缩长上下文KV Cache显存开销 面对大模型长上下文推理中KV Cache的显存瓶颈,该研究提出FlashMemory-DeepSeek-V4方案,其核心机制**前瞻稀疏注意力(LSA)**通过动态预测未来生成所需的历史KV块,将冷数据移至CPU,仅召回关键块至GPU。实验显示,在LongBench-v2等评测中,该方法将KV Cache显存占用压缩至基线13.5%(512K上下文时仅9.6%),同时平均准确率提升0.6%。LSA通过轻量
2026-06-15 18:11:32
300
原创 Codex 实践系列 Vol.02:让 Codex 读懂开源项目 Typer
这次用 Codex 读 Typer,最重要的一点是:面对一个新项目,第一步先别急着让它写代码。比较稳妥的做法,是先让 Codex 读目录、找入口、解释核心文件,再沿着一个具体功能追下去,最后通过测试理解项目如何验证行为。
2026-06-15 16:24:00
251
原创 世界杯开幕了,手把手教你做个看球小工具
这篇文章介绍了如何开发一个轻量级的世界杯赛程查询工具。文章首先分析了核心需求:按球队或日期查询比赛,并自动转换时区显示北京时间。然后详细讲解了项目结构,包括使用JSON存储赛程数据和使用Python处理查询逻辑。重点说明了时区转换的关键技术,特别是如何正确组合日期、时间和时区信息,以及使用Python的zoneinfo模块进行可靠的时间换算。最后展示了第一版程序的运行效果,成功输出了比赛信息及其对应的北京时间。这个小工具虽然简单,但涵盖了结构化数据设计、命令行参数处理和跨时区时间换算等实用开发技巧。
2026-06-12 18:36:40
177
原创 Skills 是什么?Claude 官方教你做一个好用的 Skill
Skills 可以理解成 Claude Code 给 Agent 准备的任务经验包。它把一类任务里反复出现的说明、脚本、模板、配置、坑点和历史记录放在一起,让 Claude 下次遇到类似任务时,可以直接复用已有经验。
2026-06-11 16:59:39
303
原创 AI Agent 的 4 个工程关键词:Prompt、Context、Loop、Harness 到底是什么?
Prompt、Context、Loop、Harness 这四个词,可以看成 AI Agent 工作流里的四个关注点:怎么问、给它看什么、怎么持续推进,以及在哪里安全运行。其中,Loop Engineering,重点关注“持续推进”这一环节。它关心的是,如何把原本由人一轮轮推动的“提示—执行—检查—修正”过程,设计成一个清晰、可控、容易沉淀经验的循环。这也是 AI Agent 从“能回答问题”,走向“能完成任务”时,一个很关键的变化。
2026-06-11 15:59:13
313
原创 为什么Analytics Agent 总答错?来自 Anthropic 的数据分析最佳实践
数据分析 Agent 的核心瓶颈,不是 SQL 生成能力,而是业务上下文。不要指望 Agent 在混乱的数据体系里自动找出标准答案。你需要先把数据环境整理成 Agent 能导航、能理解、能验证的结构。
2026-06-10 15:36:56
273
原创 从 Claude Code 动态工作流看 Agent Harness 设计
复杂任务不能只靠一个上下文一路做到底。任务需要拆分,上下文需要隔离,验证需要独立,流程也要能在中断后恢复。不同子任务还可以选择不同模型和预算,避免所有事情都挤在同一个执行路径里。这些设计放在 Claude Code 里,是 Dynamic Workflows;放到更大的 Agent 系统里,其实就是 Agent Harness 要解决的问题。
2026-06-10 15:09:04
640
原创 本地模型为什么能跑起来?从 llama.cpp 量化说起
大模型不再只存在于云端,也开始进入普通电脑。你打开 Ollama、LM Studio,或者直接用 llama.cpp,下载一个量化版本,就有机会在本地跑起一个还不错的大模型。
2026-06-10 14:36:30
556
原创 这 3 个开源小工具,帮你让 Coding Agent 少吃点 Token
今天我们就来分享 3 个有用的开源项目,专门帮你的 Coding Agent 整理“上下文”:让它少翻无关代码,少吞冗长日志,把 token 留给更关键的信息。
2026-06-09 10:15:00
179
原创 周一上线 | Claude 救活 TouchBar,硅基圣经面世,Agent 开始点亮开发者桌面
一边,MiniMax M3、Cosmos 3、Gemma 4、MAI 等新模型密集发布,Agent、Coding、多模态、本地推理和物理世界模型也轮番上场。Codex 再迎新升级,近期还将整合进 ChatGPT。另一边,社区里的开发者依旧活跃:有人用 Claude 让 TouchBar 再就业,有人用 Codex 生成带物理效果的藤蔓小游戏,还有人把 AI Coding 助手的运行状态同步到桌面氛围灯上。
2026-06-09 09:00:00
217
原创 Codex 实践系列 Vol.01:从跑通 CLI 开始,看懂 Codex 怎么工作
作为本系列的开篇,我们不聊 Codex 的复杂能力,也不做完整评测。只做一件很基础的事:在本地把 Codex 跑起来,然后让它完成一个边界清楚的小任务。
2026-06-08 16:13:55
432
原创 专访 Mainline 作者们:聊聊从代码协作到意图协作
在 AI Coding 越来越普遍之后,代码生成会变得更快,也更多。团队成员如果还只靠逐行看代码、看 diff 来理解彼此,成本会越来越高。Mainline 的做法是让 Agent 在开发过程中自动总结 Intent(意图),并把它和 commit 关联起来。这样团队在 Review 时,可以先看这次改动的目标、原因和关键决策,再决定是否需要深入看代码。
2026-06-08 15:51:59
228
原创 从 Claude 案例看 Coding Agent 的计划层设计
CodeRabbit 是一家 AI Code Review 平台。现在每周会 Review 超过 200 万个 PR,覆盖 15,000 多个客户。正是这个面对大量 AI 生成代码的场景,让 CodeRabbit 观察到一个现象:很多程序的失败并不发生在“代码写不出来”,而是发生在更上游的需求理解阶段。
2026-06-03 23:44:54
379
原创 周一上线|Codex 工程师教你自我蒸馏,吉他遥控贪吃蛇,Kindle 再就业成 Claude 仪表盘
一边,模型和 AI 编程工具还在继续往 Agent 方向推:Claude Opus 4.8 发布,xAI 把 Grok Build 0.1 放进 API,阶跃星辰也继续更新模型和开发者工具。另一边,社区里也有不少轻松内容:有人把 Claude Code 用成桌面硬件工作流,有人把 Codex 拿去优化网络,还有 Codex 研发人员让 Codex 回顾自己的历史工作记录,给自己“蒸馏”一套可复用流程。
2026-06-03 07:15:00
253
原创 标星近 15k,这个高颜值 Coding Agent 如何用 DeepSeek 缓存降低会话成本
Reasonix 值得关注的地方,不只是它做了一个 DeepSeek Coding Agent,更在于它把“模型计费机制”放进了 Agent 的架构设计里。过去我们聊 Coding Agent,更多关注模型能力、工具调用、上下文管理和代码修改效果。但 Reasonix 提醒了一个更现实的问题:Agent 想要长期运行,成本本身也是工程问题。
2026-06-02 21:50:58
189
原创 让生产级 Agent 实现自进化:MOSS 的源码级实验
生产级 Agent 的很多失败并不发生在模型“怎么想”,而发生在系统“怎么跑”。比如消息路由错误、工具结果被错误合并、hook 执行顺序不对、session 状态传递出错。这些问题属于 Agent Harness,通常写在代码里,不在 prompt、skill 或 memory 里。因此,MOSS 讨论的不是“Agent 会不会改代码”,而是 Agent 自进化如何从文本层推进到源码层,尤其是推进到 Harness 代码。
2026-06-02 21:38:02
588
原创 专访 Bub 作者们:如何开发一个好记性又懂人的 Agent
Bub 可以理解成一个以 channel 为中心的 AI Agent 框架。它不是只在命令行里写代码,也不只是一个群聊机器人,而是希望把不同 IM、命令行、工具、记忆和运行上下文连接起来,让用户可以根据自己的场景做一个定制版 Agent。
2026-05-31 07:59:49
447
原创 如何从零开发一个工业级的 SKILL
可能大家都听过 skill 这个东西,可能也用过。但是自己从未动手开发过一个 skill,本文主要是带你从一个空目录开始,做出一个可以被验证的 Skill 包。
2026-05-30 16:40:59
602
原创 RAG、Agentic RAG 和 AI Memory 到底有什么区别?
它们合在一起,回答的是同一个问题:AI 怎么从“回答当前问题”,变成“参与长期工作”。RAG 让它会查资料;Agentic RAG 让它更会查资料;Memory 让它能带着过去的上下文继续工作。当这三者组合起来,AI 才更像一个长期协作的助手,而不只是一个每次都要重新介绍背景的聊天窗口。
2026-05-28 18:20:28
367
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅