逐梦苍穹-CSDN博客

原创今天火爆全球的Claude Fable 5解读：和Mythos 5其实是同一个模型

Anthropic 发布高于 Opus 的 Mythos-class 新层级：Fable 5 与 Mythos 5 同底座、差护栏。讲清订阅用户在 Claude Code 的免费窗口与额度规则、长时域自主的四个底层支柱、护栏静默降档机制与选型判断。

2026-06-10 14:01:42 312

原创 2026强化学习技术路线全景：从PPO到GRPO，再到DAPO/GSPO，一个AI工程师的选型地图

SFT、RAG、Prompt 能解决很多交付问题，但目标一旦变成"让模型在可验证任务上持续变好"，最后还是会绕回强化学习。这篇文章以 AI 工程师的视角，不做百科罗列，只回答三个问题：我的场景该走 RL 的哪条路？从 PPO 到 GRPO 这条最火的主线到底发生了什么？2026 年还值得追的前沿是什么？文中给出 RL 六大战场全景图、LLM 后训练"删繁就简"进化路线，并明确指出一个常被误解的点：GRPO 已不再是"最先进算法"，而是开源推理 RL 的默认基线——2025 年之后主线已转向 DAPO（工程化

2026-06-08 21:21:00 423

原创告别PPT排版折磨！我用“前端工程化”重塑了复杂技术架构的演示文稿

在准备“企业级 AI 架构”等复杂技术分享时，传统 PPT 常受限于代码排版乱、架构图难维护等痛点。本文另辟蹊径，深度复盘了如何利用 HTML/CSS/JS 从零打造一套现代化的 Slide Deck 演示系统。文章详细拆解了 AI 辅助视觉设计、iframe播放器架构、SVG 自适应缩放机制，以及“开发阶段多文件解耦，交付阶段自动化打包单文件”的核心工程化工作流。带你摆脱排版束缚，用写代码的方式优雅输出高质量的技术汇报。

2026-06-08 17:51:28 480

原创我开源了一个Claude Code历史可视化工具：本地Prompt一键浏览、搜索、导出

Claude Code 的历史 Prompt 全藏在本地却看不见。一个纯本地、只读、开源的桌面工具：聚合、搜索、统计、按日期一键导出 Markdown。

2026-06-07 17:46:47 486 1

原创 Gemma 4 12B本地部署避坑：OMLX后缀、4bit/8bit选择与gemma4_unified报错修复

这篇文章系统讲清 OMLX / Hugging Face 中 Gemma 4 12B 的模型命名规则、it、bf16、8bit、4bit、mxfp4、nvfp4、assistant 等后缀含义，并给出不同内存设备的下载建议。文章还复盘了gemma4_unified not supported 报错的根因和修复方式，适合想在 Apple Silicon 上稳定运行本地大模型的开发者参考。

2026-06-05 22:47:49 1041

原创 omlx实战：5分钟让Apple Silicon本地跑通Claude Code——分页SSD KV缓存把TTFT从90秒压到1秒（附安装踩坑+实测）

本地模型到底能不能带得动 Claude Code？过去的答案是"能跑，但别抱期望"——编码 Agent 的请求前缀一直在悄悄漂移，绝大多数 MLX 推理服务器一旦前缀变了就把 KV 缓存整个作废、从头重算，几轮之后每次响应要干等 30~90 秒。omlx（Apple Silicon 专属本地 LLM 推理服务器，底座是 Apple 的 MLX 框架）用分页 SSD KV 缓存把算过的缓存分块落盘、相同前缀直接从硬盘恢复，社区实测缓存命中率 96%、TTFT 压到 1~3 秒。本文按"先用起来再讲原理"展开：

2026-06-04 20:30:27 555 1

原创 Claude Code Dynamic Workflows 实战：用国产 1M 模型解析 51 万行 TypeScript 仓库，我踩了 7 个坑

本文复盘一次用 Claude Code dynamic workflows 编排 Agent 集群、结合国产 1M 上下文模型解析 51 万行 TypeScript 源码仓库的真实过程。重点分析 Claude 与国产模型在叶子任务稳定性上的差异，以及“大数组穿过编排器”导致全程绿灯却静默塌方的根因，并总结弱模型 Agent 编排的 5 条工程法则

2026-06-01 20:34:06 276

原创 Claude Code ultracode 完全指南：三分钟上手 + 215MB 二进制逆向实锤

本文基于实测 Claude Code 2.1.156 二进制逆向，系统拆解隐藏命令 /effort ultracode。先给三分钟上手闭环（怎么敲、怎么确认生效、怎么关），再从源码层回答它的归属之争：它是"模型能力 × CLI 编排"的组合特性、重心在 CLI，门控为"Workflow 编排已启用 AND 模型支持 xhigh（仅 Opus 4.8/4.7）"的与关系。文中辨析 ultracode / effort max / ultrawork 三者区别，并实锤纠正一处常见误解：ultracode 拨到的

2026-05-29 21:48:26 2202

原创 Claude Code ultrawork 持久化全解：14 文件 + cache key

翻开 Claude Code Workflow 一次跑完的全套产物：JS 脚本 + 运行状态 JSON + journal + 6 份 transcript + 6 份 meta，共 14 文件 1.1MB。本文解剖每类文件作用、SHA-256、 cache key 怎么实现 resume、prompt caching 怎么悄悄省 30%，以及为什么这是「脚本即资产」工程哲学的完整落地

2026-05-26 15:38:48 1580

原创何凯明 ELF 论文小白解读：AI 写字下一站是“先画后写“

何凯明 + MIT 团队的 ELF 论文用一招"先画后写"，让连续扩散模型第一次真正打过离散派——32 步追平 1024 步、训练数据只用 1/10。本文零公式，用比喻讲透原理，再诚实拆解 6 个小白也要知道的争议。

2026-05-21 18:33:11 506

原创 Claude Code调用Codex失败复盘：从10个Agent、0次codex exec到Bash-only Worker + Hook强制委托

本文基于 Claude Code 与 Codex CLI 协同的真实故障复盘，分析 Agent Teams / subagent 在调用 Codex 时出现的“声明意图即停止”“绕过 Codex 自行生成”“结果不落盘”等失败模式。文章结合 30 个 Claude Code session jsonl 统计、Anthropic Issue #5688、AkitaOnRails 委托实验，以及 OpenAI codex-plugin-cc 的设计思路，给出一套工程化修复方案：codex-worker.md 只

2026-05-08 20:32:59 738

原创 SubQ 与 SSA 架构深度解析：Transformer 的敌人不是更大模型，而是更便宜的长上下文

本文围绕 Subquadratic 发布的 SubQ 1M-Preview 与 SSA（Subquadratic Sparse/Selective Attention）架构展开分析，拆解其“1200万 Token 上下文”“52倍 prefill 加速”“成本低于 Opus 5%”等核心宣称背后的技术含义与边界。文章重点讨论 dense attention 的平方复杂度瓶颈、SSA selector 的关键难点、prefill 与 decode 的不同成本结构，并横向对比 DeepSeek MLA、Kimi

2026-05-07 17:43:37 805

原创一条指令跑出465行deepseek-v4的深度解读：CC + Codex 双引擎 Agent Teams 协同实战全拆解

用一条自然语言指令，跑通"论文切分 → 双引擎联网搜索 → Opus 双辩手对抗验证 → 综合终稿"四阶段流程，产出一份可直接发表的 DeepSeek V4 技术解读。本文完整拆解 4 个阶段、2 套 Agent Teams、3 种协同模式的工程细节，附真实 token 统计（41M+ token、37.8M cache read）、模型选型策略、Codex 参数调优带来的 18.6× 质量跳变，以及 6 条踩坑经验。核心不是 V4 本身，而是一套可复用到任何"读论文→写解读"场景的 Agent Teams

2026-05-06 17:57:50 2080

原创 Claude Code➕Codex自主协同实操指南：从Slash踩坑到CLI自动化

本文用真实踩坑讲清 Claude Code 与 Codex 的协同边界：`/codex:rescue` 适合用户手动触发，`codex exec` 才适合让 CC 通过 Bash 自动协同 Codex。文章给出插件/CLI 对比、Claude Code Skill 封装、Agent Teams 模板、权限隔离和验收 SOP

2026-05-06 09:00:00 759

原创 AI 时代最大的谎言：你以为在学习，其实在欠债—思维决定上限的反焦虑框架

MIT 实验证实：重度使用 AI 的人，大脑连接反而最弱。当所有人都会用 Cursor 和 Claude Code，"会用 AI"早就不是壁垒了。本文提出护城河堆栈模型——宽度被抹平、深度才是差异化、沉淀才是复利。你和别人的三年差距不是来自勤奋，是来自沉淀率。附今晚就能做的三个反共识动作。

2026-04-26 21:08:15 515

原创赛博永生实验：用Claude Code把2523条Prompt蒸馏成一个可继承的Skill

如果你明天消失了，你的工作方式能被继承吗？我用一条 prompt，让 Claude Code 扫描了我的 2523 条历史对话、341 篇博客和三棵项目树，自主蒸馏出一个 47 文件、24 万字的个人 Skill。它精准捕获了我的行为指纹——270 次"给我"、136 次 Agent-Teams、6 条连我自己都没意识到的短板。但实验也揭示了一个根本问题：行为可以被记录，思想却无法被复制。本文完整还原这次蒸馏实验的过程、产物与反思

2026-04-26 17:12:17 448

原创 Harness Engineering 深度解读：为什么同一个模型，换个壳子表现差 10 倍？

模型不变，只改外层——LangChain 实验从 52.8% 冲到 66.5%，Vercel 砍掉 80% 工具成功率反而翻倍，Hashline 补丁格式让分数暴涨 10 倍。本文用四层框架把这套 2026 年 AI 工程新共识讲清楚：Agent = 大模型 + Harness。

2026-04-23 17:44:12 516

原创 AI 泡沫会破裂，但这不是坏消息

AI泡沫破裂并非坏事

2026-04-22 14:00:00 610

原创 Claude Opus 4.7 深夜发布：AI 一夜干完数月工程量，每个 AI 工程师都该警觉的 6 个信号

Claude Opus 4.7 深夜发布，Anthropic 承认它只是"次强模型"却已超越所有公开竞品。从"AI 自主交付数月工程"到"Prompt 库集体失效"，再到"2 个月一次的迭代焦虑"——6 个信号读懂这次发布的真正含义。

2026-04-17 10:35:16 557

原创大模型可解释性六年全景（2020–2026）：SAE、归因图、人格向量三把钥匙

面向非算法岗的大模型可解释性系统梳理。以四阶段脉络串起 2020–2026 年核心成果：叠加现象（为什么神经元读不懂）→ SAE（3400 万特征与金门大桥实验）→ 归因图（虚假思维链、跨语言思维、多跳推理）→ 人格向量（AI 性格的物理开关与助手轴）。不堆公式，附五条实用启示。

2026-04-16 14:52:49 553

原创 AI战略是什么？部门级AI和公司级AI的区别是什么？一文讲清楚

AI战略是什么？部门级AI和公司级AI的区别是什么？一文讲清楚

2026-04-16 14:24:49 504

原创深度复盘：Harness Engineering 的诞生不是一次发布，而是一场集体觉醒

2026 年 2 月，Harness Engineering 在三周内从一篇个人博客演变为 AI 工程界的核心议题。但很多人误以为它是 OpenAI 提出的方法论——事实并非如此。Hashimoto 命名，OpenAI 验证，LangChain 量化，Anthropic 平行实践，Martin Fowler 理论化——它更像 DevOps 或 Agile，是整个行业在实践中自下而上收敛出的共识，不属于任何一家公司。本文从这个视角出发，用三个比喻、三个真实故事，讲清楚 Harness Engineering

2026-04-14 17:13:58 569 2

原创 AI团队薪酬设计实战：假如我自己开一家AI公司，用人成本怎么规划？

AI人才供需比仅0.5，核心岗位替换成本高达年薪150%。本文从投入产出比、分层薪酬策略、长期激励机制、薪资压缩陷阱等维度，系统梳理了一套AI团队人才策略的思考框架，附市场数据与实操建议。

2026-04-11 20:29:37 1059

原创 Claude Code 到底烧了你多少钱？一文吃透 ccusage 用量统计

Claude Code 用量看不见摸不着？ccusage一条命令搞定费用追踪，支持按天/周/月/对话/5h窗口多维度统计，还能在状态栏实时显示。本文从安装到原理全覆盖，附可直接复制的常用命令。

2026-04-11 11:25:37 2120 2

原创 AI项目立项：怎么说服老板批预算？ROI框架+优先级矩阵+汇报模板全给你

IBM调查2000名CEO，仅25%的AI项目实现了预期ROI；IDC数据显示每33个AI POC只有4个进入生产。面对这些数据，老板不敢批你的AI项目预算是有道理的。这篇文章从"老板为什么不批"讲起，给出行业ROI基准数据、项目优先级四象限矩阵、成本拆解方法、25分钟汇报模板，以及一套从零开始积累信任的"滚雪球"立项策略。

2026-04-10 18:00:29 762

原创为什么敏捷开发管不了AI项目？3大替代框架+混合双轨制实战方案（附落地模板）

87%的AI/ML项目永远无法投入生产，背后有多少是"管理方法错了"？本文系统拆解传统Scrum在AI项目上的5大失灵场景，介绍业界验证的CRISP-DM、TDSP、DDS三大替代框架，并给出可立刻执行的混合双轨制策略——工程工作用标准Sprint，研究工作用弹性迭代。无论你是AI项目负责人还是数据科学从业者，这套方法论都能帮你在不确定性中找到正确的管理节奏。

2026-04-10 00:30:58 846

原创 AI淘金热深度复盘：NVIDIA净利$1201亿 vs OpenAI预亏$140亿，普通人该卖铲子还是挖黄金？（万字数据分析）

2026年AI产业最魔幻的现实：卖GPU的NVIDIA净利润$1201亿，买GPU最多的OpenAI预计亏损$140亿。本文从芯片→云计算→开发工具→应用层，拆解AI产业链七层利润率真相，复盘PC/互联网/移动三次浪潮的铲子vs黄金结局，分析红杉资本"6000亿美元缺口"的泡沫信号，并给出普通开发者可落地的实操路径。结论：先卖铲子养活自己，同时积累垂直行业认知，等待属于你的应用机会。

2026-04-08 18:51:01 754

原创 AI发现数千个零日漏洞，强到不敢公开——Claude Mythos模型全面解析

Anthropic发布的Claude Mythos Preview刷新了AI安全能力上限：SWE-bench 93.9%，自主构建20-gadget ROP链，发现存活27年的内核漏洞。但模型因太强而不对外开放，联合12家巨头组建防御联盟。本文从技术架构、涌现能力到行业辩论，全面解析这一临界点事件。

2026-04-08 17:10:35 1050

原创 AI用4小时攻破FreeBSD内核拿到root，网络安全的游戏规则变了

AI用4小时攻破FreeBSD内核拿到root，网络安全的游戏规则变了

2026-04-08 16:58:08 613

原创 LLM转VLA你的知识90%能复用，只需补这10%

VLA的骨干是Transformer，训练用SFT和LoRA，推理优化面临同样的问题。本文用一张全景映射表，将LLM训练的8个环节逐一映射到VLA，标注可复用/需调整/全新。详解数据格式差异、动作token三种编码方式、四阶段训练流程对照，并给出LLM工程师转VLA的2-3周学习路径。

2026-04-04 23:28:50 705

原创从「一个神经元都看不懂」到「给AI装上人格开关」——Anthropic六年可解释性研究全景导读

如果只能读一篇文章来理解"AI可解释性"，读这篇。Anthropic花了六年时间，试图把AI大脑从黑箱变成可审计的系统——他们发现了神经元叠加的秘密，用数学工具解包出3400万个隐藏概念，画出了Claude的思维电路图，甚至找到了AI人格的物理开关。本文是系列四篇深度文章的导读，每个阶段都指向对应的详细展开。

2026-04-02 08:30:00 724