- 博客(286)
- 收藏
- 关注
原创 为什么 AI Agent 重新爱上了文件系统(Filesystems)
大家开始编写 aboutme.md 文件,来充当可移植的身份描述 —— 你的偏好、你的技能、你的工作风格,全都放在一个文件里,这个文件可以在不同应用间流转,无需任何人去对接 API。而是说:你的数据、你的上下文、你的偏好、你的技能、你的记忆 —— 以一种你拥有的格式存在着,任何智能体都能读取,不会被锁死在某个特定的应用里。他指出,Claude Code 之所以有效,是因为它运行在你的电脑上,使用你的操作环境、你的数据、你的上下文。它不是一个需要你访问的网站,而是居住在你机器上的一个小精灵。
2026-05-05 18:22:50
417
原创 以 Nano-vLLM 为例,深入理解 LLM 推理引擎(Part 2)
相反,每个 head 执行一次投影(projection),这是一种通过学习得到的变换方式,将完整的 4096 维输入压缩成该 head 特有的 128 维表征。Nano-vLLM 则做了简化,仅支持 Qwen 模型,但背后遵循的工程模式和优化思路,其实是通用的。这个是可以训练出来的。尽管单位参数的效率有所损失,但凭借其庞大的总体规模,它可以达到的能力,是任何可训练的稠密模型都无法企及的。输出是 logits,即对每个可能的下一个 token 的打分,后续的采样环节再根据这些分值,最终选出实际输出的词元。
2026-04-22 11:17:40
411
原创 以 Nano-vLLM 为例,深入理解 LLM 推理引擎(Part 1)
sampling 步骤从有效候选范围中进行选择,引入了 controlled variability(译者注:系统通过 sampling 参数(如 temperature),在“每次都一样的确定性”和“完全随机的混乱”之间,找到那个恰到好处的平衡点。当某个 sequence 完成生成(遇到 end-of-sequence token(生成结束词元)或达到最大长度),Scheduler 会将其从 Running queue 中移除,并释放其占用的资源,为等待中的 sequence 腾出空间。
2026-04-14 11:01:12
425
原创 微软多模态推理模型 Phi-4-reasoning-vision 训练经验分享
作者 | Jyoti Aneja, Michael Harrison, Neel Joshi, Tyler LaBonte, John Langford, Eduardo Salinas编译 | 岳扬Phi-4-reasoning-vision-15B 是一款拥有 15B 参数的开源权重多模态推理模型,可通过 Microsoft Foundry[1]、HuggingFace[2] 和 GitHub[3] 获取。Phi-4-reasoning-vision-15B 能力全面,可广泛应用于各类视觉-语言任务,如
2026-04-10 17:15:53
477
原创 解构 MCP 的伪需求与 CLI 的真价值
文章也坦承,MCP 在某些缺乏 CLI 的场景下仍有其存在意义,但警示开发者不应本末倒置 —— 在没有提供基础 CLI 和 API 的情况下,优先投入资源去构建 MCP 服务器。MCP 曾许诺提供更简洁的接口,但在实际操作中,我发现自己到头来还是得写同样的文档:每个工具是干什么的,接受哪些参数,更重要的是,什么时候该用它。我们今天为大家带来的这篇文章,作者的核心观点是 MCP(模型上下文协议)并非必要,传统的 CLI(命令行工具)才是 LLM 工具调用的更优解。我承认,我始终未能参透其存在的必要性。
2026-04-01 09:42:43
396
原创 LLM 存在的一些问题,人类就不存在吗?
幻觉”(hallucination**)一词的含义,正从医学上的“感知到不存在的事物”,逐渐滑向一种更宽泛的日常用法 —— “单纯地犯错,而且固执地一错再错”。换句话说,这些模型正在让我逐渐疏离的,不光是那些“毛病不少”的人类同伴,甚至还有我自己那套缓慢却属于自己的思考方式。我们今天为大家带来的文章,作者的观点是:随着大语言模型的飞速进化与人类能力的相对停滞,那些曾被视为AI“缺陷”的行为特征,如今反而在人类对话中表现得更为显著,甚至在某种程度上,AI已凭借其高效的认知能力成为比人类更优质的交流伙伴。
2026-03-25 11:01:59
398
原创 OpenClaw 架构详解 · 第二部分:并发、隔离以及确保智能体正常运行的不变量(Invariants)
我们今天为大家带来的文章,作者的观点是:构建可靠 AI 智能体系统的关键,不在于精巧的提示词,而在于通过强制执行少量核心不变量(Invariants)来管理并发和状态,将自主性约束在可控范围内。如果你见过 Agent “疯狂刷屏回复”,或者在执行中途“无视用户的纠正”,那么上文提到的队列模式(queue modes)就是控制这些行为的“调节旋钮”。一个不那么光鲜但真实的事实:决定你的 Agent 是“玩具”还是“能真正上线运行的系统”的,是这一层(基础设施/运行时层),而不是 prompt。
2026-03-20 10:37:59
713
原创 OpenClaw 架构详解 · 第一部分:控制平面、会话管理与事件循环
OpenClaw 是一款可自托管、开源的个人 AI 助手,与典型的聊天应用相比,它更贴近你的操作系统。OpenClaw 的官方安全文档几乎说出了所有人的顾虑:运行具有 shell/文件访问权限的 agent 是有风险的,不存在绝对安全的配置 —— 你的目标是审慎地控制谁可以与它对话、它可以在哪里行动、它能接触哪些资源。今天为大家带来的这篇文章,作者给出了一个清晰而坚定的答案:OpenClaw 的“自主性”并非源于神秘的涌现能力,而是一套严谨、可解释的事件驱动架构所带来的工程成果。
2026-03-18 20:58:32
818
原创 目前市场上似乎只有三类真正可行的 AI 产品
最终,你只能给 chatbots 配备那些用户自己也能完成的操作,可这样一来,你的 chatbots 其实是在跟你自家产品的原生体验竞争,而且大概率会输。首款基于大语言模型的产品 ChatGPT,其功能只不过是^1(译者注:文中出现的数字,为注释上标,文末可看到对应的注释内容,后同)与模型本身进行对话:换句话说,就是一个纯粹的 chatbot。由 LLM 生成的补全内容让用户无需改变现有工作流的任何环节,就能享受到 AI 模型的能力:他们看到的只是编辑器原本就会提供的自动补全建议,只不过强大得多。
2026-03-13 10:36:59
394
原创 为什么 AI 巨头们放弃私有壁垒,争相拥抱 Agent Skills
文中深入剖析了技能加载的“渐进式披露”机制如何大幅降低 Token 消耗,对比了其与微调、Custom Instructions 等方案的优劣,并展示了开发者生态在三周内从 0 爆发至 25,000 个技能的惊人增长。云内容管理公司 Box 构建的 Skills,能将存储的文件自动转换为符合组织标准的格式化文档。如果你正在构建 AI 智能体、交付 AI 驱动的产品,或是设计未来需要对接多家 AI 服务供应商的系统架构,那么这件事的重要性,远超过你今年能看到的任何一次基准测试分数提升。
2026-03-11 08:31:49
548
原创 在 Anthropic 的这两年,我学会了 13 件事
产品工程(Product Engineering)的美感在于,把一个富有远见的设计构思,不断打磨、提炼,最终变成在给定约束条件下最简洁、最本质、可执行的形态。而个人成长最快的途径,就是不怕接手没人碰过的烂摊子,承担起超出自己本职的责任,并且付出远超别人期望的努力。12)不必总是执着于从零到一的原创,有时候,快速识别出已经被验证过的正确方向,然后集中资源、吸取前人教训,以更优的执行力去超越对手,是一条更稳妥、更快速的成长路径。5)当技术具有颠覆性时,告诉客户如何利用它来解决问题,正是你的职责所在。
2026-03-06 09:48:52
252
原创 回头看 RLHF、PPO、DPO、GRPO 与 RLVR 的发展路径
我们今天为大家带来的文章,作者的核心观点是:现代大模型早已超越“Next Token Prediction”的原始范式,正通过 RLVR 等优化机制,完成从机械模仿到策略性推理的认知跃迁。文章以生动的比喻和清晰的阶段划分,系统回顾了从早期RLHF的“驯狗式”对齐,到DPO的直接偏好内化,再到GRPO带来的“系统2”式多路径推理,以及RLVR通过编译器反馈实现的代码能力飞跃。模型实际上是在并行模拟多种可能发生的未来,观察哪一种能够成功,然后更新它自己的“大脑”,使其“思考”方式更接近于获胜者。
2026-03-04 10:35:26
405
原创 HackerNews 热榜第一名:AGI 的 A,原来代表的是 Ads(广告)
文章以详实的数据拆解了 OpenAI 2025 年的爆发式增长(400 亿美元融资、2600 亿美元估值、10 亿美元ARR),却犀利地指出其广告变现策略的必然性:从 Perplexity 50 美元+ 的 CPM 基准,到 Fidji Simo(Meta 广告业务前负责人)的加盟,再到 2029 年 250 亿美元广告收入的内部预测 —— 作者构建了一个“极度乐观却逻辑自洽”的 ARPU 增长模型。可讽刺的是,人类智慧的巅峰 —— 那些最顶尖、最聪明、最耀眼的大脑聚在一起,折腾半天,结果却只是……
2026-02-28 10:51:32
994
原创 Prompt caching 技术是如何实现 1 折的推理成本优化的?
如果你刚刚才处理完 “Mary had a”,那么在生成下一个 token 时,对 “Mary had a little” 中前三个 token 的大部分矩阵运算其实是冗余的 —— 而这正是 LLM 推理循环的默认行为。于是我决定深入探究,一头扎进 LLM 工作原理的“兔子洞”,直到彻底搞明白服务商究竟缓存了哪些精确的数据、这些数据的用途,以及它们如何让每个人的 LLM 请求都变得更快速、更便宜。在第一行,我们唯一知道的词是"Mary",所以它应该是唯一对生成"had"有贡献的词。
2026-02-13 13:28:22
1076
原创 分享一些编程助手使用过程中的经验教训与观察思考
其次,他揭示了模型“求快”的默认性格需通过“惯用性”提示词加以约束,并惊叹于Opus 4.5与GPT 5.2在Bug定位上的惊人能力,但也警示,过度依赖AI会导致开发者心智模型保真度快速衰减,进而缩短代码库的“品质半衰期”;软件工程的核心始终在于:与团队协作来深入理解问题的本质,编写代码将解决方案落地,排查并修复 Bugs,同时随着问题的变化持续迭代优化方案。据我观察,即使有最好的提示词工程支持,主要由编程助手生成的代码库,其产品品质的“半衰期”也更短。最终的定论,且留待对 2026 年的回顾时再下。
2026-02-11 10:36:50
455
原创 GPU 应该怎么选择?写给 AI 工程师的 GPU 选型指南
最后,文章重点对比了 PCIe 与 SXM 封装形式及 NVLink 互连方案的优劣,并基于计算能力、内存和互联性能三大维度,为 AI 工程师提供了在不同部署环境下(云端或本地)选择 GPU 的实用决策框架。带宽是另一个关键的性能维度。从大家用来训练 LoRA 适配器的 RTX 3/4/590,到驱动(并仍在驱动)大语言模型集群的 H100,再到专为大规模生成式 AI 训练与推理而进入数据中心的全新 Blackwell B100+ 芯片 —— GPU 的选择和配置参数可谓五花八门。但是,硬件只占一半。
2026-02-06 10:19:13
911
原创 Claude Code中的Commands→Skills→Agents是进阶路径?你可能理解错了
作者通过“代码整洁度检查”这一完整示例,清晰展示了如何组合使用 Command + Agent 实现手动流程,或 Skill + Agent 实现智能主动介入,并强调 —— 选择依据不应是“功能复杂度”,而应是“谁来决定执行时机”。Command 是手动触发器。Agent 并非比 Command “更高级” —— Command 是触发器,Agent 是执行者,它们扮演着不同的角色。Command 可以调用 Agent,Skill 也可以调用 Agent,Claude 也能直接调用 Agent。
2026-02-04 10:14:38
1481
原创 强化学习比你想象的还要更为低效...
但显然,人类的学习效率远高于此。我能想到的最简单例子是过程奖励模型(process-reward model),它会这样说:“嘿,这次生成的答案虽然错了,但我看得出来,它一开始的推理方向是对的。之所以要强调这一点,是因为在训练的大部分时间里,模型的通过率都极低(接近0),在对数尺度上看,这些低通过率的阶段占据了很大的比重,这意味着真正能高效学习的窗口期其实很短。你学到的新信息量,取决于你看到正确答案时有多“惊讶” —— 你的通过率越低(即正确答案的先验概率越小),你从这个标签中学到的东西就越多。
2026-01-30 10:21:21
828
原创 微调后的Qwen3-4B在多项基准测试上战平或胜过GPT-OSS-120B
经过微调的小型语言模型(SLM)可以胜过规模大得多的模型:微调后的 Qwen3-4B 在 8 项基准测试中的 7 项上表现能够超越或战平 GPT-OSS-120B(一个比它模型规模大 30 倍的教师模型),剩下的一项差距也不到 3 个百分点。并非所有小型模型的性能都差不多,但经过微调后,它们之间的差距会大幅缩小。值得注意的是,这款 4B 模型的表现甚至超过了更大的 Qwen3-8B,这表明在蒸馏任务中,Qwen3 的较新版本(2025 年 7 月 25 日更新的版本)比之前的 8B SLM 效果更好。
2026-01-28 10:55:59
872
原创 Skills 与延迟加载工具定义的 MCP,目前哪个更高效、稳定和可控?
文章系统梳理了延迟工具加载(deferred tool loading)的工程现实与限制,指出即便工具可以延后注入,对话级别的工具集合仍然是静态的,且发现机制高度依赖正则匹配,收益并不如预期。我们今天为大家带来的这篇文章,作者的核心观点是:相较于依赖复杂且高成本的动态 MCP 工具加载机制,以 Skills 为核心的能力摘要与自维护模式,在当前阶段反而更加高效、稳定且可控。因此,至少从我的经验来看,你最终还是得为通过 mcporter 或类似方式暴露出来的 MCP 工具,手动维护这些 Skills 摘要。
2026-01-23 08:29:33
764
原创 英伟达与 OpenAI、甲骨文:亦敌亦友的 AI 三角
就在英伟达创下业绩纪录的同时,他们最大的客户似乎正在悄悄武装自己,准备另起炉灶。我们今天为大家带来的这篇文章,作者的观点是:英伟达目前的高速增长依赖于激进的库存策略和宽松的信用条款,但其最大客户正通过定制芯片和直接采购关键组件来构建独立的供应链,这导致双方关系正从深度捆绑走向潜在的激烈竞争。[9],我推测其策略是:用英伟达 GPU 构建智能模型,但最终在自家的定制芯片上运行推理任务 —— 以此大幅削减高昂的运营成本,或押注类似谷歌 Edge TPU 的专用芯片(NPU)来处理推理负载。
2026-01-21 10:22:27
530
原创 如何减少单智能体输出结果的不确定性?利用并行智能体的“集体智慧”
但我能观察到它的行为模式:它高度重视多个智能体之间的一致意见,同时也会指出那些值得考虑的异常情况,并且更为关键的是,当多个结果收敛到一个简单方案时,它倾向于选择更简洁的解决方案(尤其是在我额外通过提示词强调“追求简洁”的情况下)。而具有独立起点的并行智能体则能跳出这类陷阱,探索问题空间的不同区域,突破平庸的解决方案,找到更优方案。在之前的文章中,我谈到了我对上下文工程的心智模型:上下文工程的目标是改变 LLM 输出结果的概率分布,这里的“概率分布”是指 LLM 所有可能输出结果的集合。
2026-01-16 10:54:25
686
原创 智能体的构建依然是个“脏活累活”...
上下文编辑的妙处在于,它理论上能为你节省一些 token,留到后续的迭代循环中使用:你可以将某些对完成任务没有推动作用、仅对执行过程中的某些尝试产生负面影响的失败记录,从上下文中移除。此外,强化机制的另一个用途,是向系统通报在后台发生的状态变化。我认为部分原因在于,虽然智能体的基本设计只是一个循环,但一旦我们引入不同的工具,就会产生微妙却关键的差异。另外,在 Anthropic 的场景下,如果直接调用其原生 SDK(而不是通过 Vercel),缓存管理要简单得多,而且出错时返回的错误信息也清晰很多。
2026-01-16 10:16:32
385
原创 2025 年 LLM 的六项范式转变——Andrej Karpathy 的观察
我们今天为大家带来的文章,作者的核心观点是:2025 年大语言模型的真正突破不在于参数规模的扩张,而在于训练范式、智能形态与应用架构的深层转变 —— 尤其是基于可验证奖励的强化学习(RLVR)、AI 作为“幽灵”而非“动物”的认知重构,以及面向垂直场景的新型 LLM 应用层的崛起。
2026-01-09 10:56:33
1188
原创 AI 算力是一种需要被定价、对冲和交易的风险资产?
说得对,而这恰恰是其有趣之处。当你面对的是一种在供给、时机和价格上都充满不确定性的实体资产时,你就不再处于产品设计的范畴了,而是进入了市场机制设计的领域。我们今天为大家带来的这篇文章,作者的核心观点是:前沿AI算力已超出传统云服务范畴,其不确定性、时效性与稀缺性更接近大宗商品与金融衍生品,未来竞争的关键不在优化服务,而在设计承载算力风险的市场机制。大多数人谈起 AI 算力市场,脑海里浮现的是云计算那套:把稀缺的硬件封装成一个 API,按用量计费,开出账单,再加点调度算法的“魔法”,然后去融一轮资。
2026-01-07 09:43:20
1044
原创 大家都可以调用LLM API,AI套壳产品的护城河在哪里?
你最初的优势是拥有完整的代码上下文,这是实现这一切的前提;比如一款解梦场景的 AI 应用,允许用户每天早晨记录梦境,基于梦境生成 AI 视频,维护一个专属的梦境日记,并且能随着时间推移揭示梦境中存在的模式 —— 这样的产品就完整地解决了一个用户真正想要完成的深层任务。诚然,用户也可以向 ChatGPT 描述梦境,甚至它还能保存历史记录,但专用的解梦应用却能通过特定字段(如反复出现的人物、地点、物品、主题等)结构化地捕捉梦境,并与睡眠追踪数据深度整合 —— 这些是通用聊天机器人很可能无法做到的。
2025-12-31 11:08:37
856
原创 靠更换嵌入模型,该产品将 RAG 延迟降低了50%
文章重点介绍了 MyClone 将原有 1536 维的 OpenAI text-embedding-3-small 模型替换为 512 维的 Voyage 3.5 Lite 嵌入模型,从而实现 RAG 延迟与存储成本的大幅降低,还能在保持甚至提升检索质量的同时,明显改善用户体验。随着 RAG 系统走向成熟,像 Voyage‑3.5‑lite 这类明确针对“按需选用嵌入维度”、“支持多种量化方案”与“检索质量”进行优化的嵌入模型,将在数字人格这类对延迟敏感、知识密集型的产品中,成为默认选择。
2025-12-26 09:10:19
512
原创 LLM 扩展方式的三年演进之路:复杂之后,回归简单
摘要:LLM扩展方式的演进与未来趋势 过去三年,LLM扩展方式经历了从复杂到简化、从专用到通用的演进过程。早期ChatGPT插件因模型能力不足而难以实用,随后出现了自定义指令等简化方案。随着模型智能提升,扩展机制逐渐回归通用性,如Cursor Rules将规则融入代码库,MCP协议提供强大但复杂的执行能力。最新趋势如Agent Skills采用轻量级Markdown+脚本方式,标志着"通用工具+自然语言指令"的愿景正因模型能力提升而实现。未来可能不再需要过度设计的专用工具,而是赋予智能体
2025-12-24 08:45:08
670
原创 你说的 CUDA 到底是哪个 CUDA?一文理清那些让人混淆的术语和版本号
CUDA 的术语存在严重的多重含义问题:“CUDA” 一词本身至少指代五种不同的概念,“driver” 在不同上下文中含义也不同,而各种工具报告的版本号衡量的也是不同的子系统。本文从术语辨析入手,逐一澄清“CUDA”、“driver”、“kernel”等关键概念的多重含义,进而剖析 CUDA 软件栈的分层架构 —— 从应用层的 Runtime API(libcudart),到底层的 Driver API(libcuda)与内核驱动(nvidia.ko),最终抵达 GPU 硬件。
2025-12-19 10:47:07
1012
原创 对长上下文能力有不同要求,怎么选择合适的模型?
文章系统梳理了当前主流大模型在处理长上下文时所采用的不同技术路径 —— 从优化后的精确注意力机制(如 GPT-5、Mistral)、稀疏或混合注意力机制(如 Claude、Gemini),到彻底脱离注意力范式的状态空间模型(如 Mamba),并深入剖析了每种架构在记忆持久性、推理深度与计算效率之间的权衡。我们今天为大家带来的这篇文章,作者的核心观点是:上下文窗口的长度并不能完全代表模型的实际能力,真正决定模型在长文本场景下表现的是其背后的架构设计与技术权衡。它们的失败往往在于毫厘之差,而非千里之谬。
2025-12-17 08:41:25
646
原创 压缩而不失智:LLM 量化技术深度解析
文章从量化的基本原理出发,深入剖析了训练后量化(PTQ)与量化感知训练(QAT)的适用场景,详细解释了缩放因子、零点、对称/非对称量化等关键技术细节,并进一步探讨了高级量化技术(如 GPTQ、AWQ、SmoothQuant)以及 KV 缓存量化等前沿方法。我们今天为大家带来的这篇文章,作者的核心观点是:量化技术通过在模型精度与效率之间寻找最优平衡点,使得大语言模型能够在资源受限的设备上高效部署,而几乎不降低其“智能水平”。你是在它们学习过程中就引入量化,还是等它们已经记牢所有模式后再量化,表现会大不相同。
2025-12-12 07:56:29
1086
原创 AI 处理器全景指南(CPU、GPU、TPU、APU、NPU、IPU、RPU...)
Cerebras 采用的注意力批处理分块(Batch Tiling on Attention, BTA)技术,解决了稀疏 MoE 模型的计算效率问题 —— 它将注意力层与专家层的批处理需求解耦:注意力层在较小的“分块”(tiles)上运行,以降低内存压力;此外,还有总线(buses,用于数据传输)、指令寄存器(instruction register)和指令指针(instruction pointer,用于追踪下一步要执行的内容)等辅助组件,将整个系统紧密连接,使指令能顺畅地从一个步骤流转到下一个。
2025-12-10 08:27:49
2226
原创 用户体验与商业化的两难:Chatbots 的广告承载困境分析
作者逐一评估了展示广告、插屏广告、文本内嵌广告、组件广告和经过赞助的问题提示等可能方案,指出前几种要么破坏体验,要么削弱 AI 的“决策投射”能力,唯有“经过赞助的问题提示”相对可行,但仍非理想解。在上文列出的所有选项中,我认为这是“弊端最少”的选择。)”,并利用这些时刻来投放广告。文本嵌入广告则直接触及 Turley 所描述的矛盾核心:ChatGPT“高度对用户负责,必须忠实、专注地帮助用户达成其目标”,如果在已有上下文的情况下,不直接给出最契合用户问题的单一答案,反而插入广告内容,就会损害其核心功能。
2025-12-05 09:34:47
1137
原创 为什么语言模型偏爱使用破折号?反驳多种主流解释,并提出猜想
的观点(原因已在上文简要说明),但我认为她提出的“数字化进程推动破折号的使用”这一说法非常可信。文章系统梳理并逐一反驳了多种主流解释,然后通过分析标点使用的历史趋势、尼日利亚英语语料库统计数据,以及 GPT-3.5 到 GPT-4o 破折号使用激增的时间节点,有力支撑了“旧书数字化”这一最合理的假说。我们今天为大家带来的文章,作者的核心观点是:当前主流大语言模型对破折号的偏爱,很可能源于其训练数据中大量引入了 19 世纪末至 20 世纪初的纸质书籍 —— 这些文本本身就比当代英语更频繁地使用破折号。
2025-12-03 10:29:42
753
原创 剖析大模型产生幻觉的三大根源
这项研究为这一问题引入了一个清晰的、基于统计学的视角 —— 不再将幻觉视为某种神秘的故障,而是将其重新定义为两种力量共同作用下的必然结果:二元分类错误,以及鼓励猜测的评估激励机制。核心思路是,重塑当前基准测试中内嵌的激励机制,让模型因“准确”而获得奖励,而不仅仅因为“自信”。我们今天为大家带来的这篇文章指出:幻觉并非模型的故障,而是当前训练与评估机制下的一种理性选择 —— 当模型因进行猜测获得奖励、因坦白“我不知道”而被惩罚时,编造答案就成了最优策略。”这一问题的回答节选,均未生成正确的标题或年份。
2025-11-28 09:18:55
1067
原创 上下文管理策略综述
文章系统剖析了长上下文常见的四大失效模式——上下文污染、干扰、混淆与冲突,并提出了六种行之有效的上下文管理策略:RAG(检索增强生成)、工具选配、上下文隔离、修剪、摘要与卸载。尽管这一现象尚属个案,但却揭示了这样一个现象:用于检索任务的长上下文,与用于多步生成式推理的长上下文,有着根本不同的要求和挑战。这类设计模式特别适用于研究类任务。我们今天为大家带来的这篇文章,作者的核心观点是:上下文不是免费的,信息必须被主动管理,否则“Garbage in, garbage out”的老问题将以更隐蔽的方式重现。
2025-11-26 08:10:55
1161
原创 当前的“LLM 智能”,是来自模型突破,还是工程堆砌?
作者指出,OpenAI 正从基础研究转向应用变现,其推出的 ChatGPT Apps、Atlas 浏览器等产品,反映的不是技术突破,而是对模型能力停滞的策略性回避。这一点至关重要,因为整个 AI 行业(从数万亿美元的 GDP 预测到独角兽公司的估值[1])都建立在模型能力持续进步的预期之上。这些都是架构层面的限制,而非工程问题。我们今天为大家带来的这篇文章提出了一个尖锐的观点:所谓“推理模型”的突破,本质上并非模型智能的根本性提升,而是通过工具调用与流程编排对模型能力停滞所做的工程性补偿。
2025-11-21 07:50:54
696
原创 分享一名海外独立开发者的 AI 编程工作流
本文系原作者观点,Baihai IDP 仅进行编译分享作者 | Peter Steinberger编译 | 岳扬最近我没怎么在社交平台上活跃,因为我正全身心投入到最新的项目中。如今,智能体工程(Agentic engineering)已经变得非常强大,几乎能编写出我需要的 100% 的代码。然而,我却看到很多人还在费力解决本不该存在的问题,搞出一堆繁复的表演,而不是专注把事搞定。这篇文章的部分灵感来自最近在伦敦参加的“Claude Code Anonymous”活动[1]上的对话,另一部分则是因为距离我上次
2025-11-19 17:27:22
1292
原创 如何提升 LLMs 处理表格的准确率?一项针对 11 种格式的基准测试
文章详细介绍了作者针对 GPT-4.1-nano 模型进行的对照实验,测试了包括 CSV、JSON、Markdown Table、YAML 等在内的 11 种常见表格格式,使用 1000 条员工记录和对应问题,系统性地评估了各种格式在准确率和 token 消耗两个维度的表现。我们今天为大家带来的文章,作者通过一项对照实验指出:表格格式对 LLM 的理解能力有显著影响,其中 Markdown-KV 格式在准确率上表现最佳,但也伴随着更高的 token 消耗。为简化实验流程,本次实验未采用该做法。
2025-11-14 09:54:52
772
原创 面向 LLM 的 GPU 系统工程方法论
我们今天为大家带来的文章,作者的观点是:GPU 工程的核心不在于手写内核的能力,而在于构建系统设计思维 —— 理解从模型定义到硬件层的完整技术栈如何协同工作。作者提出了一个五层渐进式调试框架:从模型定义(Model Definition)入手,识别计算与内存瓶颈;进入并行化(Parallelization)阶段,解决多卡同步问题;深入运行时编排(Runtime Orchestration),优化集群资源利用率;通过编译与优化(Compilation & Optimization)提升生产环境性能;
2025-11-12 09:38:48
914
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅