AI前沿
文章平均质量分 94
一深思AI
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【AI Daily】Arxiv论文研读Top5 | 2026-05-23
2026年AI对齐研究呈现三大趋势:1)数学证明完美对齐不可行,转向"受控错位"和多样性管理(PNAS Nexus);2)认知科学与AI深度交叉,强调以科学理解而非人类行为为对齐基准(Bramley Lab);3)LLM多Agent仿真成为认知研究新范式,在供应链等场景验证可行性(ACL 2026)。研究显示,混合认知对齐(HCA)理论对AI系统设计提出"可预期性"和"意图透明度"新要求,标志着对齐研究从技术层面向人机协作系统演进。原创 2026-05-23 23:53:31 · 320 阅读 · 0 评论 -
深度拆解:TypeScript 大神把 .claude 目录开源,18 个 Skill 是给 AI 编程踩刹车的工程纪律
Matt Pocock开源AI编程技能库:7.2万星项目背后的工程纪律 摘要: TypeScript专家Matt Pocock开源其日常使用的18个AI编程技能,一个月内获7.2万星。这些技能不是炫技prompt,而是针对AI编程常见问题的工程解决方案,包括:1)需求对齐缺失(/grill-me技能);2)代码啰嗦难读(/grill-with-docs);3)反馈循环缺失(/tdd);4)架构腐化(/zoom-out)。核心价值在于将资深工程师的决策习惯编码为可执行的工程纪律,如TDD技能强调垂直切片开发,原创 2026-05-22 22:42:12 · 488 阅读 · 0 评论 -
【AI Daily】Arxiv论文研读Top5 | 2026-05-22
今日AI研究速览聚焦三大核心议题:1)评估体系革新,DeepWeb-Bench和Benchmark²揭示现有基准测试不足,推动元评估时代来临;2)Agent工具调用优化,"Tool-Use Tax"研究指出工具调用存在隐性成本,需精简调用链路;3)推理能力短板,QSTRBench暴露LLM在时空推理上的系统性缺陷。关键发现包括:顶级模型在多源推理任务中表现骤降40%、异步环境显著影响Agent完成率、空间时序推理能力接近随机水平。建议重点关注动态环境评估指标设计,警惕工具滥用风险。(149字)原创 2026-05-22 11:25:32 · 820 阅读 · 0 评论 -
【人形机器人产业入门】08 留疑——6 件我还没想清楚的事
《人形机器人产业终篇:六大未解之谜》摘要 本文作为系列研究的终篇,聚焦人形机器人产业六大核心悬疑:1)特斯拉Optimus能否如期实现2027年百万台量产目标;2)中国整机厂工业场景落地实效存疑;3)触觉数据集标准化进程滞后;4)英伟达产业整合可能性;5)海外政策风险对84.7%中国出货量的潜在冲击;6)研究者自身与产业实践的距离。作者通过多源交叉验证指出,当前产业判断仍建立在"公开信息+逻辑推演"层面,关键变量如车间真实运行数据、触觉技术突破、地缘政治影响等仍存在重大不确定性。系列研究最终呈现的不仅是结论原创 2026-05-20 10:17:25 · 346 阅读 · 0 评论 -
【AI Daily】AI日报 | 2026-05-20
humanlayer 开源了「12-Factor Agents」框架,参照经典的 12-Factor App 方法论,提出一套专为 LLM 驱动软件设计的生产就绪原则,覆盖上下文管理、工具调用边界、Human-in-the-loop 等核心维度。事件尚在进行中,细节未完全披露。对 AI 工程方向的实践者而言,这个思路直接降低了「把现有工具链 Agent 化」的接入成本,尤其适合云迁移场景下存在大量遗留 CLI 工具、但又想接入 AI 编排层的情况。原创 2026-05-20 10:10:01 · 608 阅读 · 0 评论 -
【人形机器人产业入门】05 触觉这件事——为什么所有 VLA 公司都绕不开
《人形机器人触觉传感器的产业现状与未来趋势》摘要:触觉传感器是人形机器人突破应用瓶颈的关键技术。北京大学实验显示,触觉反馈能将抓取成功率从53.5%提升至100%,决定机器人能否脱离人类监督。当前产业存在价值错配:最需要触觉的医药、家庭场景尚未商业化,而主流汽车工厂场景对触觉需求较低。技术路线分为五类:压阻式(最便宜)、电容式、磁电霍尔阵列(已量产)、视触觉(性能最优但昂贵)和柔性电子皮肤。主要玩家包括帕西尼(磁电霍尔量产龙头)、戴盟/一目(视触觉性能派)和汉威科技(电子皮肤)。2024-2025年触觉传感原创 2026-05-19 23:06:35 · 380 阅读 · 0 评论 -
【人形机器人产业入门】04 灵巧手是这场战争的瓶颈——为什么“上半身“是产业里最难的环节
《人形机器人产业观察:灵巧手是制约发展的关键瓶颈》 当前人形机器人产业面临一个核心矛盾:虽然机器人的"下半身"运动能力已取得显著进步,但"上半身"的灵巧操作仍处于原始阶段。灵巧手作为机器人产业的关键瓶颈,其能力上限直接决定了机器人能完成的任务和应用场景。 灵巧手面临五大技术挑战: 机械结构极限:需在手掌大小空间内集成20+微型驱动器和传感系统 力控精度要求:需实现0.5N到100N的200倍力控跨度 触觉感知瓶颈:现有技术路线各有局限,缺乏通用解决方案 模型层空白:缺乏大规模触觉数据集支持模型训练 sim-原创 2026-05-19 23:03:35 · 328 阅读 · 0 评论 -
Solopreneur 7×24 Agent 工作流:从 ARIS 论文里抠出 5 个可落地步骤
摘要:上海交大ARIS论文提出了一种基于多智能体对抗协作的自主研究框架,为独立开发者构建"睡眠工作流"提供了新思路。文章指出传统AI工作流失败的三大原因:幻觉问题、缺乏经验积累和审查机制不足。ARIS通过"Claude执行+GPT审查"的跨模型对抗机制,实现了8小时内4轮自修正,评分提升50%。作者提炼出5个落地步骤:1)明确适合睡眠执行的任务类型;2)搭建最小跨模型对抗配置;3)用Markdown编写可复用技能;4)配置三道反幻觉保障;5)建立持续优化的经验库。该方案特别适合重复性、容错性高的长周期任务,原创 2026-05-18 23:21:34 · 331 阅读 · 0 评论 -
ARIS 深度技术拆解:为什么“对抗式协作“能解决长 Agent 的幻觉问题
摘要: 论文《ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration》提出了一种解决AI长周期研究可信度问题的框架。其核心创新在于三层架构(执行层/编排层/保障层)和Meta-Optimization外循环,通过74个Markdown定义的Skills实现模块化协作。系统采用6条端到端工作流(创意发现→实验桥接→自动审查→论文写作→投稿回复→演讲生成),重点构建了证据-主张审计级联等反幻觉机制。实验显示,8小时运行可将论文评分从原创 2026-05-18 23:06:45 · 310 阅读 · 0 评论 -
【AI Daily】每日Arxiv论文研读Top5-2026-05-18
2026年5月18日多智能体LLM研究动态显示三大趋势:1)研究重点转向高效编排,框架设计决策、编排层优化和协议标准化成为核心议题;2)MCP协议已成为多智能体协作的基础层,建议采用MCP为主干、A2A为补充的协议组合;3)CAST框架通过案例推理动态校准工具调用,可提升OpenClaw系统的稳定性。最新研究强调编排层优化收益超过单智能体能力提升,并指出框架性能差异显著(延迟可达300%),建议从口碑选型转向数据驱动选型。原创 2026-05-18 22:48:01 · 551 阅读 · 0 评论 -
【人形机器人产业入门】03 头部七家在打什么仗——Figure / Tesla / 宇树 / 智元 / 优必选 / 银河通用 / 波士顿动力
《人形机器人产业2026格局分析》摘要 全球人形机器人产业已形成七大头部企业竞争格局。美国Figure以390亿美元估值领跑,凭借Helix双系统VLA架构和英伟达等巨头支持,但面临订单不足风险。Tesla依托汽车供应链优势,计划5年内实现百万台量产,但AI能力稍显不足。中国宇树以科研市场为主,2025年出货5500台,毛利率达35%,是少数盈利企业。智元定位"中国版Figure",获政府订单支持,但轮式底盘设计存在争议。优必选则在工业场景积累最多真实工时数据。产业已分化为技术派(波士顿动力)和商业化派(中原创 2026-05-18 13:36:55 · 565 阅读 · 0 评论 -
【人形机器人产业入门】02 钱花在哪里——BOM 拆解告诉我们的事
人形机器人产业入门 · 2026 观察》第 02 篇路易乔布斯 · 一深思 AI · 2026如果你想真正理解一个产业,最快的捷径是。不是字面意义上的拆,是把一台机器人的**物料清单(BOM, Bill of Materials)**摊在桌上——每一个零件占整机成本多少、对应哪家供应商、技术壁垒在哪里、价格未来会涨还是会降。这一篇我做的事,就是带你做一次纸上的拆解。读完之后,你会明白几件让产业里很多人也搞不清的事——。原创 2026-05-18 13:31:03 · 547 阅读 · 0 评论 -
【人形机器人产业入门】01 万亿市场的真假——2025 出货量罗生门
《人形机器人产业现状与争议:2025年市场观察》 摘要: 2025年全球人形机器人市场呈现高速增长但统计混乱的特征。核心数据显示:全球出货量约1.5万台(±30%差异),市场规模仅4.4亿美元,与"万亿市场"预期差距显著。中国厂商占据84%出货量,宇树与智元的"全球第一"之争实质是统计口径差异(双足人形vs广义具身智能)。值得注意的是,美国企业虽出货量不足千台,但估值远超中国厂商,反映资本市场更看重未来潜力而非当前规模。产业面临四大买家分化:自用工厂、科研机构、政府订单和文娱场景,其中教育市场支撑了宇树的高原创 2026-05-17 17:15:39 · 571 阅读 · 0 评论 -
【具身智能】VLA 赛道图谱(全景横评)
VLA(Vision-Language-Action)模型研究综述(2026) VLA模型通过端到端架构整合视觉、语言与动作输出,显著提升机器人泛化能力。主流模型包括Google的RT-2、斯坦福OpenVLA(开源标杆)、阿里RynnVLA-002(开源SOTA)等,核心差异体现在动作表示、多模态支持及世界模型整合。研究扩展至多传感器融合(如触觉TLA、OmniVLA)和执行层优化(如灵巧手操作FBI)。中国厂商如阿里达摩院、银河通用等积极布局。技术分歧集中于动作表示、世界模型必要性及传感器接入方案。未来原创 2026-05-17 00:28:24 · 375 阅读 · 0 评论 -
顶级 AI 都「看了等于没看」:南洋理工新基准撕开多模态 Agent 的真实天花板
多模态搜索新基准揭示AI核心缺陷:视觉检索能力不足 最新研究《InterLV-Search》对8个顶级AI模型进行测试,发现多模态搜索准确率均低于50%。关键发现: 视觉检索是主要瓶颈:模型找到正确图片后的答题准确率达73%,但检索召回率仅35% "看了等于没看"现象:模型能识别图片内容,但不会主动利用视觉线索继续搜索 开放网络表现更差:离线环境与真实网络场景存在10%以上的准确率差距 研究揭示了AI在交织式多模态搜索中的五大能力缺陷,特别指出优化图像检索pipeline比提升看图答题能力更为关键。该成果为原创 2026-05-16 23:49:16 · 497 阅读 · 0 评论 -
CloakBrowser 拆机:57 个 C++ 补丁能不能撑起“30/30 通过“的承诺?
路易乔布斯 · 2026-05-14 · AI Daily 深度拆解数据时间锚点:本文写作时 CloakHQ/CloakBrowser 数据为。原创 2026-05-14 22:54:48 · 379 阅读 · 0 评论 -
191k Star 的 Superpowers:把 AI 从“会写代码“改造成“守纪律的工程师“
摘要: AI编码代理框架Superpowers通过结构化技能体系解决AI生成代码质量低下的问题。该项目在7个月内迭代至v5.1,获191k stars,被8大编码平台采用。其核心是建立工程师纪律:强制需求澄清(brainstorming技能)、测试驱动开发、系统化调试等19个技能,通过7步工作流约束AI行为。例如,brainstorming技能要求AI必须完成9步检查清单(包括方案对比、设计文档提交等)才能进入编码阶段。该框架显著提升了AI代码可靠性,使PR拒绝率从94%下降。其创新在于将方法论编译为可执行原创 2026-05-14 22:52:28 · 385 阅读 · 0 评论 -
混合检索+重排序:当前 RAG 精度提升最成熟的工程路径
这篇论文提出了一种四步流水线方法,显著提升了RAG(检索增强生成)系统在生物医疗QA任务中的引用准确性。通过混合检索(语义+BM25)、Cohere重排序、保守提示策略和声明级验证四个环节,实现了100%的引用准确率。该方法强调重排序和生成后验证的关键作用,指出这是提升RAG精度的成熟工程路径。虽然实验规模较小(25条查询),但验证了该链路在需要严格引用的专业场景(如医疗、法律)中的有效性。论文提供了完整的技术选型方案,并指出该框架可用开源工具替代实现。核心结论是:重排序和生成后验证是确保RAG引用可靠性的原创 2026-05-13 21:18:29 · 395 阅读 · 0 评论 -
【AI daily】精选AI Top News-20260512
【AI基础设施化趋势凸显】今日三大技术动态显示AI能力正向基础设施层下沉:1)谷歌证实黑客利用AI发现软件漏洞,标志着AI安全攻防进入新阶段;2)英伟达发布官方Rust转CUDA编译器,为GPU编程带来更安全的开发范式;3)字节跳动开源多模态Agent框架UI-TARS-desktop,推动AI能力融入工作流。这些进展共同指向AI工程领域的关键趋势——基础设施化,建议重点关注AI安全防御、Rust生态扩展及多模态Agent框架的应用潜力。原创 2026-05-12 23:41:48 · 372 阅读 · 0 评论 -
ICLR 2026 前沿三连击:7B 打败 GPT-4o、LLM 在同伴压力下“叛变“、告别像素的世界模型
AI研究突破:小模型如何超越大模型? ICLR 2026的三篇论文揭示了AI发展的关键路径: AgentFlow(斯坦福×Lambda)提出7B小模型通过Flow-GRPO训练法,在多个基准上超越GPT-4o(最高提升27.7%),证明终端奖励广播和组对比优势能让小模型学会更优决策策略。 KAIROS研究发现多智能体协作中,小模型易受"同伴压力"影响而偏离最优解,暴露出现有系统的鲁棒性缺陷。 LPWM指出要实现真正智能,需从像素级理解升级到物体级表征。这三项研究共同勾勒出AI发展的完整路原创 2026-05-12 18:48:12 · 168 阅读 · 0 评论 -
RAO 深度解读:当 Agent 学会递归调用自己——推理时扩展的新范式
科学中最经典的 divide-and-conquer(分治法)变成了一个可学习的推理策略——模型不仅学会解题,还学会"什么时候该分解问题"以及"如何最优地分解问题"。这种能力让AI系统在处理复杂任务时展现出类似人类的策略性思维。原创 2026-05-12 18:46:38 · 497 阅读 · 0 评论 -
DeMem 深度解读:当 Agent 记忆遇上信息论——“记住决策,而非描述“
普通方法可能因为噪声数据就乱分裂,DeMem 要求统计证据足够强构造下界证书d‾txx′dtxx′,仅当d‾txx′ϵdtxx′ϵ时(即以高概率确认两个上下文不能共享最优动作)才添加 cannot-link 边。实测数据:在 LoCoMo 上,认证分裂仅在4.6%的路由事件上触发,但对黄金标注精度达85%。翻译成白话:DeMem 很少分裂记忆(克制),但一旦分裂就很准(精确)。这比激进分裂 + 高错误率好得多。原创 2026-05-12 18:44:15 · 499 阅读 · 0 评论 -
深度拆解——Google 工程总监如何把“资深工程师纪律“封装成 22 个可执行 Skill
Google Cloud AI总监Addy Osmani开源的agent-skills项目三周斩获21.4k星,为AI编码Agent制定了首份"工程纪律手册"。该项目通过22个结构化技能、3种专家角色和7个触发命令,将软件开发生命周期划分为DEFINE→PLAN→BUILD→VERIFY→REVIEW→SHIP六个阶段,强制AI遵循工程规范。每个SKILL.md文件采用标准化格式,明确反对"走捷径"行为,如跳过测试、忽视安全审查等,从根本上改变了AI默认的"原创 2026-05-11 23:38:35 · 790 阅读 · 0 评论 -
GenericAgent 源码级拆解——3K 行种子如何长成全系统控制 Agent,Token 消耗仅 1/6
摘要: GenericAgent提出了一种极简自进化Agent框架,仅用3K行代码和9个原子工具(核心为code_run)实现主流Agent框架的功能,同时将Token消耗降至1/6。其核心创新包括: 自展开设计:通过code_run动态生成工具,无需预置庞大工具库; 100行主循环:简化工具路由和记忆管理,依赖运行时技能晶化(将成功路径存储为可复用Skill); 5层记忆架构(元规则、洞察、事实、技能、工作记忆)实现上下文信息密度最大化,仅加载必要信息。 该框架挑战了传统Agent的"重型预制&原创 2026-05-11 23:36:47 · 557 阅读 · 0 评论 -
GraphRAG + Multi-Agent 凭什么登上 Nature?拆解 2026 年首个生产级统一多模态平台
本文介绍了一种创新的GraphRAG+Multi-Agent+多模态集成架构,通过五层设计实现了46%的多跳问答性能提升。核心创新在于:1)多模态统一接入层将文本、图像等转换为标准向量和实体;2)6个自训练LLM分层处理不同任务,兼顾性能与成本;3)GraphRAG层通过三元组抽取构建知识图谱,解决传统RAG的推理短板;4)多智能体协同层实现跨模态信息整合。该架构特别适合企业级应用,在保证数据主权的同时,以1/8成本达到接近GPT-4的效果,为复杂场景下的知识推理提供了可落地的解决方案。原创 2026-05-10 20:02:08 · 652 阅读 · 0 评论 -
2026 Agent 记忆系统横评——10 种方案、LoCoMo benchmark、谁才是真王者?
2026年AI Agent记忆技术迎来关键突破,mem0.ai发布的行业报告揭示了结构化记忆方案的显著优势。报告采用严苛的LoCoMo长对话基准测试,对10种主流记忆方案进行三维评估(准确率×成本×延迟)。核心发现:结构化记忆Mem0以仅6分准确率差距,实现14倍成本压缩和12倍延迟降低,成为工业级最优解。特别值得注意的是,图谱增强Mem0g仅在时序推理等特定场景带来边际收益(综合提升1.5分),而OpenAI官方记忆因黑盒机制和过度遗忘问题表现垫底。报告建议开发者根据业务场景选择记忆方案——常规对话优先M原创 2026-05-10 20:00:40 · 444 阅读 · 0 评论 -
SkillOS 论文深度拆解:为什么 AI Agent 的“遗忘能力“比“学习能力“同样重要
SkillOS:自进化AI代理的技能策展系统 摘要:Google Cloud AI Research与UIUC联合提出的SkillOS系统解决了AI代理持续学习的核心难题。该系统采用角色分离架构,将执行器(Executor)与技能策展员(Curator)解耦,通过冻结32B参数的大模型执行器,专注训练8B参数的小型策展模型。策展员负责对技能库进行INSERT/UPDATE/DELETE三操作决策,实验显示这种设计相比传统方法提升性能9.8%。关键创新包括:(1)分组任务流机制解决延迟反馈问题;(2)DELE原创 2026-05-09 00:25:38 · 474 阅读 · 0 评论 -
【Harness Engineering系列】08 Big Model vs Big Harness——模型路线 vs 工程路线,我们应该往哪走
摘要: 本文探讨AI Agent发展的两条技术路线——Big Model(依赖模型升级)与Big Harness(外围工程加固),通过分析OpenAI、Anthropic等案例,揭示两者天花板:模型可靠性增长非线性,工程复杂度会随模型进化衰减。作者基于时间成本、差异化护城河和知识沉淀三方面原因押注Big Harness路线,并通过Hermes、Claude Design等框架的代码级对比,证明工程化在现有Agent中的核心地位。最后提炼五条方法论原则,强调确定性外壳、分层心跳等工程思维,指出可靠Agent需原创 2026-05-09 00:08:43 · 499 阅读 · 0 评论 -
【Harness Engineering系列】07 五大反模式——我在 OpenClaw 踩过的坑 + 完整事故复盘
本文复盘了OpenClaw系统6个月运行中最严重的5次事故案例,通过具体log记录、根因分析和修复方案,总结了AI辅助开发中的关键反模式。文章重点分析了两个典型事故:1)单次对话内进行长决策链导致代码回退混乱,通过引入强制决策检查点机制解决;2)仅靠Prompt约束无法防止危险操作,需通过代码级Hook拦截破坏性命令。每个案例都提供了修复PR代码片段和预防机制,为AI辅助开发提供了实用的安全实践参考。原创 2026-05-08 10:14:13 · 354 阅读 · 0 评论 -
【Harness Engineering系列】06 独立 Evaluator——为什么让模型自评 = 养蛊
文章摘要: Harness系统的独立评审机制是其第五大支柱,揭示了AI自我评估的局限性。作者通过实践发现,AI自我评分普遍虚高30分左右,形成"自我表扬泡泡"。文章提出三种评审模式:自我评估(有严重缺陷)、跨实例评估(同模型不同会话)和跨模型评估(最优但成本高)。重点介绍了OpenClaw的classroom-article-writer-v2实现方案,通过结构化自检报告和独立评审机制,将评审流程分解为客观清单勾选和第三方复核两个阶段。一个关键发现是:评审prompt越具体,评审质量越高原创 2026-05-08 10:13:39 · 221 阅读 · 0 评论 -
【Harness Engineering系列】05 Context 不是内存是预算——CLAUDE.md 的注入艺术
文章摘要: 本文探讨了AI Agent的上下文管理策略,提出应将Context视为"预算"而非"内存"。作者通过OpenClaw项目的实践,对比了"内存派"(全量加载)和"预算派"(按需分配)两种思路,展示后者在成本(月费从¥480降至¥150)、响应速度(12s→3s)和准确率(68%→89%)上的优势。重点介绍了CLAUDE.md的预算制实现:将内容分为P0(身份级)、P1(任务相关)、P2(按需加载)、P3(归档)四档优先原创 2026-05-08 10:13:05 · 402 阅读 · 0 评论 -
【Harness Engineering系列】03 Checkpoint vs Compaction——为什么我放弃了 Claude 的上下文压缩
生物的代谢不是单一过程——有快速反应(呼吸),有周期性输入(进食),有深度整合(睡眠做梦)。层频率对应生物学角色哨兵心跳4 小时/次呼吸确认系统活着,快速健康检查白天学习2 次/日进食吃新信息,回写 Wiki晚上做梦1 次/日(0:00)睡眠精炼、整合、清理、进化三层独立运作,互不阻塞。哨兵故障不影响学习,学习故障不影响做梦。原创 2026-05-08 00:36:07 · 407 阅读 · 0 评论 -
【Harness Engineering系列】02 确定性外壳 × 非确定性内核——git push 红线的故事
本文探讨了如何在大模型非确定性的背景下安全地执行敏感操作(如git push)。作者通过亲身经历指出,单纯依赖模型提示的"红线"不够可靠,需要构建多层确定性护栏系统。文章分析了三篇关键文献,提出"确定性外壳×非确定性内核"的设计理念,强调80%精力应投入外壳建设而非模型调优。最后详细介绍了OpenClaw的四层护栏体系:技能声明校验、Hook执行拦截、红线文档约束和Shell别名防护,通过代码示例展示了如何在加载、运行等多个环节实现确定性拦截,确保即使模型出错也能阻止原创 2026-05-07 19:47:28 · 355 阅读 · 0 评论 -
【Harness Engineering系列】01 Agent = Model + Harness:为什么你的 Demo 活不过一周
文章摘要:本文揭示了AI Agent产品在真实场景中失效的核心原因——仅靠精心设计的Prompt无法应对复杂现实问题。通过作者亲身经历的运维事故案例,说明Prompt在模拟测试中表现优异,却在真实故障诊断时给出错误建议导致损失扩大的问题。文章提出"Harness"概念作为解决方案,将其类比为操作系统,包含上下文管理、任务调度、检查点等确定性外壳层,包裹非确定性的LLM内核。作者将AI产品演进分为三个阶段:Prompt Engineering时期(2022-2023)、Context En原创 2026-05-07 16:05:16 · 490 阅读 · 0 评论 -
AI Agent 的操作系统:Harness Engineering 深度拆解
《Harness Engineering:AI工程新范式实战指南》摘要 本系列提出"Harness Engineering"概念,揭示AI工程实践中模型能力与系统需求的本质差异。作者通过6个月的真实项目实践,总结出8篇技术指南(约5.6万字),系统性地阐述如何构建AI操作系统级的工程框架。内容涵盖状态机架构、注意力预算管理、三层心跳机制等核心方法论,并配套完整可运行的代码实例。系列特别适合已完成Demo开发但面临生产环境稳定性的工程师,提供从Prompt优化到系统设计的完整解决方案。每篇原创 2026-05-07 15:57:08 · 451 阅读 · 0 评论 -
深度解析Deepseek V4:1M 上下文不是军备竞赛,是养 Agent 的人才知道的痛
摘要 DeepSeek V4 1M 上下文能力的突破为AI Agent开发带来关键转折。文章通过三个典型场景对比128k与1M的差异:30轮Coding Agent任务中从8轮失忆到60轮连贯执行;整仓库代码理解时从RAG抽样到全量分析;长文档处理从切块摘要到整体推理。V4通过三组技术创新解决传统Transformer的1M瓶颈:mHC残差网络实现深度信息可控流动,CSA+HCA注意力机制实现分层信息压缩,Muon优化器保障训练稳定性。底层基础设施的突破(如硬件无关的TileLang、输出确定性的批处理)使原创 2026-05-06 23:33:40 · 467 阅读 · 0 评论 -
2026,RAG 正在被重写:从向量检索到 Agent 认知架构的范式迁移
2026年RAG技术演进:从向量检索到认知架构 当前RAG系统面临"向量相似≠语义相关"的核心矛盾,正经历从管道到智能体的范式迁移。三大技术主线正在重塑RAG生态:A-RAG赋予模型检索自主权,xMemory实现语义解耦聚合,GraphRAG完成工业化落地。同时,Agent记忆系统暴露出45%的跨会话遗忘率,推动四层认知架构(感知/工作/情节/语义记忆)成为新标准。MCP协议的安全漏洞和MemoryAgentBench基准的出现,标志着该领域进入成熟期。工程选型需根据场景复杂度在轻量级x原创 2026-05-06 12:25:46 · 405 阅读 · 0 评论 -
【AI Agent通识九课】09 · 用 100 行 Python 自己做一个 Mini Agent
文章摘要: 本文介绍了如何用100行Python代码实现一个Mini AI Agent,无需依赖框架,仅使用标准库和OpenAI SDK。该Agent支持命令行交互,能调用读/写文件、执行命令和搜索文件等工具,并通过ReAct循环处理任务。关键实现包括:工具定义与风险控制、工具执行器、LLM交互和主循环逻辑。最终实现了一个可理解用户需求、自主选择工具并处理危险操作确认的简易Agent系统,帮助开发者从理论过渡到实践。原创 2026-05-05 11:06:35 · 307 阅读 · 0 评论 -
【AI Agent通识九课】08 · 一张地图看完所有 Agent 设计
本文系统梳理了AI Agent的六大核心设计模块,构建了从基础心智到高级能力的完整技术地图。文章首先呈现了分层架构图,展示从ReAct心智地基到生态互通的递进关系;其次强调模块间的依赖顺序,指出跳过基础层将导致系统风险;然后通过对比矩阵分析主流产品的优劣势;最后提供选型指南,按编码、问答、企业等场景推荐产品方案,并给出包含10个关键问题的评估清单,涵盖心智层、能力层、执行层、生态层和成本维度,帮助读者建立系统的Agent技术选型框架。原创 2026-05-05 11:06:10 · 1088 阅读 · 0 评论 -
【AI Agent通识九课】07 · AI 的万能遥控器 — 生态怎么互通
(类似安卓 AOSP)原创 2026-05-05 07:47:08 · 182 阅读 · 0 评论
分享