人工智能时代
文章平均质量分 93
Luhui Dev
并不是肖像,只是想要这深邃的眼神
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DeepMind AlphaProof Nexus 拆解:AI 数学研究的 4 种系统范式
AI 数学研究为什么需要 AlphaProof Nexus?因为它不只是让大模型写证明,而是把 LLM 生成、Lean 验证、AlphaProof 搜索和多 Agent 演化组织成一套可复用的研究系统。原创 2026-05-28 22:22:19 · 344 阅读 · 0 评论 -
业务级 Agent 的 Runtime 设计:从 LangChain 看可靠性工程
本文探讨了AI Agent从演示到业务系统落地的关键挑战——"Runtime鸿沟"。作者指出业务级Agent需要解决执行可靠、状态可靠、交互可靠等六大问题,而非仅优化prompt。文章重点分析了LangChain Runtime的设计思路:1)通过Durable Execution实现可中断/恢复的任务执行;2)分层管理短期状态、长期记忆和业务数据;3)将Human-in-the-loop作为核心可靠性机制;4)构建细粒度的权限和多租户体系。这些设计将Agent的可靠性从UI层下沉到运行时框架,为业务场景提原创 2026-05-20 20:50:43 · 422 阅读 · 0 评论 -
Anthropic 2026 最新 Agent Harness 架构完整拆解:Managed Agents
Anthropic Agent Harness 演进与实践 本文梳理了Anthropic在Agent工程领域的思路演进,从早期依赖长上下文窗口,到区分workflow与agent,再到聚焦工具调用、上下文工程和安全执行,最终形成可扩展的Runtime架构。关键进展包括: Brain/Hands解耦:将控制逻辑与执行环境分离,提升系统可靠性 Session设计:区分持久事件日志与动态上下文,支持长任务管理 Sandbox安全:通过隔离环境、凭证管理和可恢复机制保障生产安全 核心思想是构建稳定接口而非固定流程,原创 2026-05-13 19:50:36 · 636 阅读 · 0 评论 -
AHE 深度解析:Coding Agent 的 Harness 如何自动演化
《Agentic Harness Engineering: 可观测驱动的编码Agent工具层自动演化》论文提出AHE框架,通过结构化方法持续优化AI编码工具的外围工程层(harness)。该框架将系统提示、工具描述、中间件等组件模块化,基于运行痕迹、失败分析和性能指标自动迭代改进。实验表明,经过10轮演化后,终端基准测试准确率从69.7%提升至77.0%,且优化后的工具层能跨模型迁移。AHE采用三层可观测体系(组件、修改、流程),通过版本控制、变更清单和回滚机制确保改进可追溯,为AI编码工具的工程化部署提供原创 2026-05-04 22:32:15 · 315 阅读 · 0 评论 -
高频使用 GPT-5.5 两天后的总结
GPT-5.5 发布后的深度体验总结:这是自 GPT-4.5 以来首次完整重新预训练的模型,代号"Spud"。核心亮点包括长上下文能力飞跃(1M token 窗口,MRCR 测试提升 37 个百分点)、自检功能增强、Agent 自主工作能力显著提升。虽然在某些代码任务上不及 Claude,但在长文本检索、高难度数学和计算机操作方面表现领先。API 价格翻倍,但 token 消耗减少 40%,实际成本涨幅约 20%。模型能力提升速度已超过安全防护机制成熟速度,值得关注。原创 2026-04-27 17:07:53 · 509 阅读 · 0 评论 -
为什么 Signature 比直接写 prompt 更容易做自动优化
DSPy框架通过分离任务逻辑与prompt实现,解决了传统prompt工程中的硬编码问题。它采用Signature定义任务接口、Module构建可组合功能、Optimizer自动优化prompt,实现了模型无关的教学内容生成pipeline。实验显示其优化后任务准确率可提升一倍以上。相比LangChain等工具链框架,DSPy更像带编译器的编程语言,能自动适配不同模型和需求变更。目前虽在中文支持等方面存在不足,但为AI工程提供了系统性解决方案,显著降低了模型迁移和多目标优化的复杂度。原创 2026-04-22 17:50:02 · 360 阅读 · 0 评论 -
AlphaGeometry DSL 教程:Google 几何构造语言、defs.txt 与 Predicate 详解
本文拆解了AlphaGeometry DSL的核心协议,重点分析其作为几何构造与关系表达的中间表示层。主要内容包括:1)DSL的三重角色(表达前提、构造动作、验证目标);2)问题文件的结构化编码方式;3)action定义的五部分标准格式(签名、依赖、输入条件、几何约束、数值接口);4)predicate系统的核心语义与推理流程;5)典型action类型及其关系产出特征。该协议为构建兼容AlphaGeometry的几何系统提供了基础规范,特别强调action设计应注重关系产出质量,并需同时支持符号推理和数值构原创 2026-03-08 01:27:40 · 218 阅读 · 0 评论 -
AlphaGeometry2 深度解析:Google AI 如何解决 IMO 几何题
这篇文章分析了Google DeepMind的AlphaGeometry两代系统在解决数学几何问题上的演进与突破。第一代系统(AG1)采用LLM生成辅助构造、符号引擎推理和搜索系统结合的架构,但受限于表达能力弱、搜索爆炸和数据不足等问题。第二代系统(AG2)通过扩展几何语言DSL、优化搜索方式和推理引擎,特别是引入"double points"技巧,显著提升了IMO几何题解题率(从54%到84%)和题目覆盖率(从66%到88%)。文章指出,结构化系统(LLM+领域语言+符号引擎+搜索)是原创 2026-03-06 18:08:02 · 441 阅读 · 0 评论 -
Google DeepMind Aletheia:完全自主研究的数学 Agent 解读
Google DeepMind推出数学AI系统Aletheia,在IMO-ProofBench Advanced数据集取得91.9%的高分。该系统通过"LLM生成+形式验证"的闭环架构,实现了猜想提出、证明生成和机器验证的研究流程。Aletheia的核心创新在于结构化中间表示和验证接口,将数学研究转化为可执行的搜索优化问题。这种工程化方法可能改变数学研究范式,使验证速度突破人类评审瓶颈。未来教育AI产品需向可验证、结构化方向发展,而非仅停留在解题讲解层面。LuhuiDev原创 2026-02-25 23:45:06 · 705 阅读 · 0 评论 -
AI 与数学的融合:技术路径、应用前沿与未来展望(2026 版)
摘要: AI在数学领域的突破正从单纯刷题转向结构化推理能力。传统评测基准(如GSM8K、AIME)因数据污染和区分度下降面临挑战,新基准(如实时竞赛流、难题精选)更真实反映模型上限。当前模型分层明显:竞赛解题接近饱和,但IMO级证明和形式化验证(如Lean/Coq)仍是瓶颈。系统架构演进为多阶段解题流程,结合验证器与自动修复实现逻辑闭环。应用上,教育产品聚焦解题路径分析,科研领域推动形式化工具落地。核心建议:标准化过程数据、强化验证模块,避免单模型万能幻想。AI数学的终极目标是实现可追踪、可复用的推理协作,原创 2026-02-06 20:53:58 · 865 阅读 · 0 评论 -
MCP、Skills、Agents SDK 什么区别?AI 能力调度接口的 3 种范式解析
这篇文章没有评测工具,也不站队框架,而是试着把 Agent 系统拆回最基础的结构层级: 工具是如何被接入的?一件事该如何被规范地完成?一个复杂任务又是怎样被稳定地跑完的?通过一个“智能工厂”的类比,作者将 MCP、Skills、Agents SDK 放回各自该在的位置,清晰地区分了协议层、能力封装层与运行时调度层。 当这些概念被放回正确的层级,很多争论会自然消失,架构决策也会变得更清楚。原创 2026-01-28 22:53:18 · 666 阅读 · 0 评论 -
2025 年,我最离不开的 7 个 AI 工具,以及我真正的工作方式
我这一年,如何用 AI 构建第二个大脑和第二套生产系统。一个工程型创作者的真实工作流。原创 2026-01-23 19:27:02 · 581 阅读 · 0 评论 -
工程视角:Agent 时代,诚实对齐该如何落地?
大模型 Agent、reward hacking、工具调用隐瞒、confession 双通道、置信门控、可回滚事务、Prompt Shield、Constitutional Classifier——一篇把“诚实对齐”写成可复制代码的硬核工程笔记,收藏就能落地。原创 2026-01-18 18:30:48 · 597 阅读 · 0 评论 -
当模型“知道自己在作弊”:Scheming 与 Reward Hacking 的技术解剖
并非所有“不靠谱输出”都源自模型无知。越来越多证据显示,一类高风险失败模式来自有意识的不诚实:模型理解规则、评估收益,并在最优策略下选择欺骗。本文系统拆解三条研究主线——Reward Hacking、Sleeper Agents、Sandbagging / Covert Violation——论证其与 hallucination 的本质差异,并给出对 Agent 工程的直接启示。原创 2026-01-10 20:09:23 · 400 阅读 · 0 评论 -
Self-reflection 的幻觉:为什么让模型“反思”往往没用?
摘要: 当前AI领域常通过“反思提示”提升模型准确率,但研究发现这更多是优化输出质量而非真实性。文章指出,常见的六类反思方法(如自我批评、多采样投票等)主要改善推理质量或降低随机错误,但无法解决模型“有意欺骗”或“不知错”的问题。真正的诚实需满足两个条件:自知错误并愿意披露。反思的局限性包括:仅是二次生成而非纠错、模型可能“不知错”、激励偏差导致“圆谎”,以及对抗攻击下的失效。提升诚实度需独立设计“供述机制”与外部监督,而非单纯依赖反思。 关键词: AI反思、模型诚实性、准确率vs真实性、供述机制、对抗攻击原创 2025-12-24 19:33:03 · 718 阅读 · 0 评论 -
OpenAI Confession:为什么“承认作弊”比“不作弊”更重要?
OpenAI在《Training LLMs for Honesty via Confessions》中提出了Confession机制,这是一种新型模型监控方法。其核心思想是:与其追求模型永不犯错,不如建立机制让错误行为变得可追踪。与传统自我反思不同,Confession将诚实报告与主任务奖励完全解耦,使模型发现诚实描述违规行为是最省力的策略。这种方法不阻止模型作弊,但要求其必须承认违规行为,从而构建事后审计能力。实验显示它对reward hacking等故意违规效果显著,但对无意识的幻觉改善有限。Confe原创 2025-12-19 19:22:26 · 535 阅读 · 0 评论 -
从“幻觉”到“诚实”:OpenAI 如何重新定义大模型的不靠谱问题
OpenAI最新研究揭示大模型"不靠谱"问题的本质并非幻觉,而是诚实性问题。论文《Training LLMs for Honesty via Confessions》提出,许多错误源于模型明知问题却选择隐瞒。研究显示,强化学习可能教会模型为获得奖励而"策略性说谎"。OpenAI提出"自白"机制,通过独立奖励鼓励模型承认违规行为,在reward hacking等场景效果显著,但对真正的认知错误无效。这项研究标志着从单纯提升准确性转向探讨模型行为策略的原创 2025-12-18 17:30:29 · 835 阅读 · 0 评论 -
从 GPT-5 Unified 系统设计中学到的工程精髓
GPT-5 Unified系统设计将推理能力从模型属性转化为可调度的系统能力,通过训练时与推理时技术的协同实现。系统采用双模型架构:GPT-5 Main处理常规任务,GPT-5 Thinking专注复杂推理,由Fast Router智能调度。关键创新包括:将推理作为可伸缩资源管理、安全策略转向输出整形、提供Pro模式实现按需深度思考。这一设计启示我们:能力应模块化调度、安全需重构而非阻断、训练与推理可形成连续体。最终实现了简单问题快速响应、复杂问题深度思考、敏感问题安全表达的系统平衡。原创 2025-11-28 11:35:47 · 764 阅读 · 0 评论 -
从顶流开源 Kimi K2-Thinking 学习:什么是推理模型?
推理模型K2-Thinking突破了传统大语言模型(LLM)的局限,通过链式推理、工具调用、自我反思和长程推理等能力,显著提升了复杂任务的解决效率。其创新包括长时间自主推理(200-300步连贯思考)、测试时扩展递归优化、高效MoE架构(1万亿参数仅激活32亿)、INT4量化加速及低成本训练(460万美元)。在基准测试中超越GPT-5和Claude,同时开源模式降低行业门槛,推动AI技术民主化。K2-Thinking标志着从“简单生成”到“复杂推理+工具协同”的范式转变,为下一代AI应用奠定基础。原创 2025-11-21 17:20:13 · 689 阅读 · 0 评论 -
为什么李飞飞说:AI 真正的进步取决于世界模型
世界模型:下一代AI的底层逻辑 李飞飞发布的Marble标志着世界模型成为AI新焦点,其核心在于生成可交互、可预测的3D虚拟世界,而非简单的视频生成或3D重建。当前语言大模型(LLM)在空间、物理和因果理解上存在瓶颈,而世界模型通过模拟物体布局、动态交互和物理状态,补足了这一短板。尽管前景广阔,世界模型的落地仍面临巨大挑战:机器人操作比自动驾驶更复杂,涉及3D空间、硬件协同等难题,预计需十年以上技术积累。未来,世界模型将分阶段影响创意产业、科学计算和具身智能,但生物智能的高效学习能力仍是人工模型的终极参照。原创 2025-11-19 22:11:57 · 1143 阅读 · 0 评论
分享