- 博客(425)
- 收藏
- 关注
原创 今天火爆全球的Claude Fable 5解读:和Mythos 5其实是同一个模型
Anthropic 发布高于 Opus 的 Mythos-class 新层级:Fable 5 与 Mythos 5 同底座、差护栏。讲清订阅用户在 Claude Code 的免费窗口与额度规则、长时域自主的四个底层支柱、护栏静默降档机制与选型判断。
2026-06-10 14:01:42
312
原创 2026强化学习技术路线全景:从PPO到GRPO,再到DAPO/GSPO,一个AI工程师的选型地图
SFT、RAG、Prompt 能解决很多交付问题,但目标一旦变成"让模型在可验证任务上持续变好",最后还是会绕回强化学习。这篇文章以 AI 工程师的视角,不做百科罗列,只回答三个问题:我的场景该走 RL 的哪条路?从 PPO 到 GRPO 这条最火的主线到底发生了什么?2026 年还值得追的前沿是什么?文中给出 RL 六大战场全景图、LLM 后训练"删繁就简"进化路线,并明确指出一个常被误解的点:GRPO 已不再是"最先进算法",而是开源推理 RL 的默认基线——2025 年之后主线已转向 DAPO(工程化
2026-06-08 21:21:00
423
原创 告别PPT排版折磨!我用“前端工程化”重塑了复杂技术架构的演示文稿
在准备“企业级 AI 架构”等复杂技术分享时,传统 PPT 常受限于代码排版乱、架构图难维护等痛点。本文另辟蹊径,深度复盘了如何利用 HTML/CSS/JS 从零打造一套现代化的 Slide Deck 演示系统。文章详细拆解了 AI 辅助视觉设计、iframe播放器架构、SVG 自适应缩放机制,以及“开发阶段多文件解耦,交付阶段自动化打包单文件”的核心工程化工作流。带你摆脱排版束缚,用写代码的方式优雅输出高质量的技术汇报。
2026-06-08 17:51:28
480
原创 我开源了一个Claude Code历史可视化工具:本地Prompt一键浏览、搜索、导出
Claude Code 的历史 Prompt 全藏在本地却看不见。一个纯本地、只读、开源的桌面工具:聚合、搜索、统计、按日期一键导出 Markdown。
2026-06-07 17:46:47
486
1
原创 Gemma 4 12B本地部署避坑:OMLX后缀、4bit/8bit选择与gemma4_unified报错修复
这篇文章系统讲清 OMLX / Hugging Face 中 Gemma 4 12B 的模型命名规则、it、bf16、8bit、4bit、mxfp4、nvfp4、assistant 等后缀含义,并给出不同内存设备的下载建议。文章还复盘了gemma4_unified not supported 报错的根因和修复方式,适合想在 Apple Silicon 上稳定运行本地大模型的开发者参考。
2026-06-05 22:47:49
1041
原创 omlx实战:5分钟让Apple Silicon本地跑通Claude Code——分页SSD KV缓存把TTFT从90秒压到1秒(附安装踩坑+实测)
本地模型到底能不能带得动 Claude Code?过去的答案是"能跑,但别抱期望"——编码 Agent 的请求前缀一直在悄悄漂移,绝大多数 MLX 推理服务器一旦前缀变了就把 KV 缓存整个作废、从头重算,几轮之后每次响应要干等 30~90 秒。omlx(Apple Silicon 专属本地 LLM 推理服务器,底座是 Apple 的 MLX 框架)用分页 SSD KV 缓存把算过的缓存分块落盘、相同前缀直接从硬盘恢复,社区实测缓存命中率 96%、TTFT 压到 1~3 秒。本文按"先用起来再讲原理"展开:
2026-06-04 20:30:27
555
1
原创 Claude Code Dynamic Workflows 实战:用国产 1M 模型解析 51 万行 TypeScript 仓库,我踩了 7 个坑
本文复盘一次用 Claude Code dynamic workflows 编排 Agent 集群、结合国产 1M 上下文模型解析 51 万行 TypeScript 源码仓库的真实过程。重点分析 Claude 与国产模型在叶子任务稳定性上的差异,以及“大数组穿过编排器”导致全程绿灯却静默塌方的根因,并总结弱模型 Agent 编排的 5 条工程法则
2026-06-01 20:34:06
276
原创 Claude Code ultracode 完全指南:三分钟上手 + 215MB 二进制逆向实锤
本文基于实测 Claude Code 2.1.156 二进制逆向,系统拆解隐藏命令 /effort ultracode。先给三分钟上手闭环(怎么敲、怎么确认生效、怎么关),再从源码层回答它的归属之争:它是"模型能力 × CLI 编排"的组合特性、重心在 CLI,门控为"Workflow 编排已启用 AND 模型支持 xhigh(仅 Opus 4.8/4.7)"的与关系。文中辨析 ultracode / effort max / ultrawork 三者区别,并实锤纠正一处常见误解:ultracode 拨到的
2026-05-29 21:48:26
2202
原创 Claude Code ultrawork 持久化全解:14 文件 + cache key
翻开 Claude Code Workflow 一次跑完的全套产物:JS 脚本 + 运行状态 JSON + journal + 6 份 transcript + 6 份 meta,共 14 文件 1.1MB。本文解剖每类文件作用、SHA-256、 cache key 怎么实现 resume、prompt caching 怎么悄悄省 30%,以及为什么这是「脚本即资产」工程哲学的完整落地
2026-05-26 15:38:48
1580
原创 何凯明 ELF 论文小白解读:AI 写字下一站是“先画后写“
何凯明 + MIT 团队的 ELF 论文用一招"先画后写",让连续扩散模型第一次真正打过离散派——32 步追平 1024 步、训练数据只用 1/10。本文零公式,用比喻讲透原理,再诚实拆解 6 个小白也要知道的争议。
2026-05-21 18:33:11
506
原创 Claude Code调用Codex失败复盘:从10个Agent、0次codex exec到Bash-only Worker + Hook强制委托
本文基于 Claude Code 与 Codex CLI 协同的真实故障复盘,分析 Agent Teams / subagent 在调用 Codex 时出现的“声明意图即停止”“绕过 Codex 自行生成”“结果不落盘”等失败模式。文章结合 30 个 Claude Code session jsonl 统计、Anthropic Issue #5688、AkitaOnRails 委托实验,以及 OpenAI codex-plugin-cc 的设计思路,给出一套工程化修复方案:codex-worker.md 只
2026-05-08 20:32:59
738
原创 SubQ 与 SSA 架构深度解析:Transformer 的敌人不是更大模型,而是更便宜的长上下文
本文围绕 Subquadratic 发布的 SubQ 1M-Preview 与 SSA(Subquadratic Sparse/Selective Attention)架构展开分析,拆解其“1200万 Token 上下文”“52倍 prefill 加速”“成本低于 Opus 5%”等核心宣称背后的技术含义与边界。文章重点讨论 dense attention 的平方复杂度瓶颈、SSA selector 的关键难点、prefill 与 decode 的不同成本结构,并横向对比 DeepSeek MLA、Kimi
2026-05-07 17:43:37
805
原创 一条指令跑出465行deepseek-v4的深度解读:CC + Codex 双引擎 Agent Teams 协同实战全拆解
用一条自然语言指令,跑通"论文切分 → 双引擎联网搜索 → Opus 双辩手对抗验证 → 综合终稿"四阶段流程,产出一份可直接发表的 DeepSeek V4 技术解读。本文完整拆解 4 个阶段、2 套 Agent Teams、3 种协同模式的工程细节,附真实 token 统计(41M+ token、37.8M cache read)、模型选型策略、Codex 参数调优带来的 18.6× 质量跳变,以及 6 条踩坑经验。核心不是 V4 本身,而是一套可复用到任何"读论文→写解读"场景的 Agent Teams
2026-05-06 17:57:50
2080
原创 Claude Code➕Codex自主协同实操指南:从Slash踩坑到CLI自动化
本文用真实踩坑讲清 Claude Code 与 Codex 的协同边界:`/codex:rescue` 适合用户手动触发,`codex exec` 才适合让 CC 通过 Bash 自动协同 Codex。文章给出插件/CLI 对比、Claude Code Skill 封装、Agent Teams 模板、权限隔离和验收 SOP
2026-05-06 09:00:00
759
原创 AI 时代最大的谎言:你以为在学习,其实在欠债—思维决定上限的反焦虑框架
MIT 实验证实:重度使用 AI 的人,大脑连接反而最弱。当所有人都会用 Cursor 和 Claude Code,"会用 AI"早就不是壁垒了。本文提出护城河堆栈模型——宽度被抹平、深度才是差异化、沉淀才是复利。你和别人的三年差距不是来自勤奋,是来自沉淀率。附今晚就能做的三个反共识动作。
2026-04-26 21:08:15
515
原创 赛博永生实验:用Claude Code把2523条Prompt蒸馏成一个可继承的Skill
如果你明天消失了,你的工作方式能被继承吗?我用一条 prompt,让 Claude Code 扫描了我的 2523 条历史对话、341 篇博客和三棵项目树,自主蒸馏出一个 47 文件、24 万字的个人 Skill。它精准捕获了我的行为指纹——270 次"给我"、136 次 Agent-Teams、6 条连我自己都没意识到的短板。但实验也揭示了一个根本问题:行为可以被记录,思想却无法被复制。本文完整还原这次蒸馏实验的过程、产物与反思
2026-04-26 17:12:17
448
原创 Harness Engineering 深度解读:为什么同一个模型,换个壳子表现差 10 倍?
模型不变,只改外层——LangChain 实验从 52.8% 冲到 66.5%,Vercel 砍掉 80% 工具成功率反而翻倍,Hashline 补丁格式让分数暴涨 10 倍。本文用四层框架把这套 2026 年 AI 工程新共识讲清楚:Agent = 大模型 + Harness。
2026-04-23 17:44:12
516
原创 Claude Opus 4.7 深夜发布:AI 一夜干完数月工程量,每个 AI 工程师都该警觉的 6 个信号
Claude Opus 4.7 深夜发布,Anthropic 承认它只是"次强模型"却已超越所有公开竞品。从"AI 自主交付数月工程"到"Prompt 库集体失效",再到"2 个月一次的迭代焦虑"——6 个信号读懂这次发布的真正含义。
2026-04-17 10:35:16
557
原创 大模型可解释性六年全景(2020–2026):SAE、归因图、人格向量三把钥匙
面向非算法岗的大模型可解释性系统梳理。以四阶段脉络串起 2020–2026 年核心成果:叠加现象(为什么神经元读不懂)→ SAE(3400 万特征与金门大桥实验)→ 归因图(虚假思维链、跨语言思维、多跳推理)→ 人格向量(AI 性格的物理开关与助手轴)。不堆公式,附五条实用启示。
2026-04-16 14:52:49
553
原创 深度复盘:Harness Engineering 的诞生不是一次发布,而是一场集体觉醒
2026 年 2 月,Harness Engineering 在三周内从一篇个人博客演变为 AI 工程界的核心议题。但很多人误以为它是 OpenAI 提出的方法论——事实并非如此。Hashimoto 命名,OpenAI 验证,LangChain 量化,Anthropic 平行实践,Martin Fowler 理论化——它更像 DevOps 或 Agile,是整个行业在实践中自下而上收敛出的共识,不属于任何一家公司。本文从这个视角出发,用三个比喻、三个真实故事,讲清楚 Harness Engineering
2026-04-14 17:13:58
569
2
原创 AI团队薪酬设计实战:假如我自己开一家AI公司,用人成本怎么规划?
AI人才供需比仅0.5,核心岗位替换成本高达年薪150%。本文从投入产出比、分层薪酬策略、长期激励机制、薪资压缩陷阱等维度,系统梳理了一套AI团队人才策略的思考框架,附市场数据与实操建议。
2026-04-11 20:29:37
1059
原创 Claude Code 到底烧了你多少钱?一文吃透 ccusage 用量统计
Claude Code 用量看不见摸不着?ccusage一条命令搞定费用追踪,支持按天/周/月/对话/5h窗口多维度统计,还能在状态栏实时显示。本文从安装到原理全覆盖,附可直接复制的常用命令。
2026-04-11 11:25:37
2120
2
原创 AI项目立项:怎么说服老板批预算?ROI框架+优先级矩阵+汇报模板全给你
IBM调查2000名CEO,仅25%的AI项目实现了预期ROI;IDC数据显示每33个AI POC只有4个进入生产。面对这些数据,老板不敢批你的AI项目预算是有道理的。这篇文章从"老板为什么不批"讲起,给出行业ROI基准数据、项目优先级四象限矩阵、成本拆解方法、25分钟汇报模板,以及一套从零开始积累信任的"滚雪球"立项策略。
2026-04-10 18:00:29
762
原创 为什么敏捷开发管不了AI项目?3大替代框架+混合双轨制实战方案(附落地模板)
87%的AI/ML项目永远无法投入生产,背后有多少是"管理方法错了"?本文系统拆解传统Scrum在AI项目上的5大失灵场景,介绍业界验证的CRISP-DM、TDSP、DDS三大替代框架,并给出可立刻执行的混合双轨制策略——工程工作用标准Sprint,研究工作用弹性迭代。无论你是AI项目负责人还是数据科学从业者,这套方法论都能帮你在不确定性中找到正确的管理节奏。
2026-04-10 00:30:58
846
原创 AI淘金热深度复盘:NVIDIA净利$1201亿 vs OpenAI预亏$140亿,普通人该卖铲子还是挖黄金?(万字数据分析)
2026年AI产业最魔幻的现实:卖GPU的NVIDIA净利润$1201亿,买GPU最多的OpenAI预计亏损$140亿。本文从芯片→云计算→开发工具→应用层,拆解AI产业链七层利润率真相,复盘PC/互联网/移动三次浪潮的铲子vs黄金结局,分析红杉资本"6000亿美元缺口"的泡沫信号,并给出普通开发者可落地的实操路径。结论:先卖铲子养活自己,同时积累垂直行业认知,等待属于你的应用机会。
2026-04-08 18:51:01
754
原创 AI发现数千个零日漏洞,强到不敢公开——Claude Mythos模型全面解析
Anthropic发布的Claude Mythos Preview刷新了AI安全能力上限:SWE-bench 93.9%,自主构建20-gadget ROP链,发现存活27年的内核漏洞。但模型因太强而不对外开放,联合12家巨头组建防御联盟。本文从技术架构、涌现能力到行业辩论,全面解析这一临界点事件。
2026-04-08 17:10:35
1050
原创 LLM转VLA你的知识90%能复用,只需补这10%
VLA的骨干是Transformer,训练用SFT和LoRA,推理优化面临同样的问题。本文用一张全景映射表,将LLM训练的8个环节逐一映射到VLA,标注可复用/需调整/全新。详解数据格式差异、动作token三种编码方式、四阶段训练流程对照,并给出LLM工程师转VLA的2-3周学习路径。
2026-04-04 23:28:50
705
原创 从「一个神经元都看不懂」到「给AI装上人格开关」——Anthropic六年可解释性研究全景导读
如果只能读一篇文章来理解"AI可解释性",读这篇。Anthropic花了六年时间,试图把AI大脑从黑箱变成可审计的系统——他们发现了神经元叠加的秘密,用数学工具解包出3400万个隐藏概念,画出了Claude的思维电路图,甚至找到了AI人格的物理开关。本文是系列四篇深度文章的导读,每个阶段都指向对应的详细展开。
2026-04-02 08:30:00
724
原创 Claude Code 源码意外泄漏,1906个文件全曝光,我发现了这些秘密
Claude Code 源码意外泄漏,1906个文件全曝光,我发现了这些秘密
2026-04-01 20:06:20
1081
原创 大模型终于长出了手脚:VLA到底是什么?
LLM只能说,VLM能看能说,VLA能看能说还能动手干活。本文从LLM工程师视角出发,帮你30分钟建立对VLA的完整认知:四类模型对比、传统Pipeline痛点、架构三大模块拆解、从RT-2到pi0.5的里程碑速览。动作token就是新的文本token,你的LLM经验可以直接迁移。
2026-03-29 18:08:30
990
原创 Claude正式接管你的电脑!Computer Use深度拆解:原理、上手、安全与竞品全解析
claude computer use接管你的电脑
2026-03-24 21:34:04
5742
原创 AI 读脑只要 1 秒?97.5% 准确率背后的技术全景拆解
2026年2月,密歇根大学Prima模型登上Nature子刊——数秒读完脑部MRI,覆盖52种疾病,准确率97.5%。本文从VLM技术架构、三大里程碑模型对比、五大临床场景落地数据到中美产业竞争格局,全方位拆解AI脑影像基础模型时代的到来。
2026-03-24 14:37:07
720
原创 Mac M芯片两行命令安装ComfyUI全记录(含MPS验证+云端迁移)
M1 Pro MacBook使用comfy-cli安装ComfyUI的完整实操记录,含conda环境配置、MPS加速验证、Z-Image-Turbo工作流加载、AutoDL云GPU迁移方案,以及对"大模型迭代这么快,ComfyUI会不会被淘汰"的深度分析。
2026-03-24 13:30:00
1730
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅