- 博客(6)
- 收藏
- 关注
原创 Final Round AI vs 即答侠:程序员中文面试 5 个实测差异(700ms vs 2s 延迟)
实测环境:macOS 14.5 / Windows 11 23H2,Wi-Fi 5 百兆带宽,2026 年 4 月。对比目标:Final Round AI / yidaxia.ai / Sensei AI / 通用 Interview Copilot。
2026-04-30 01:26:56
394
原创 实时 AI 对话 P99 延迟毛刺定位实录:4 段链路 + 6 类抖动 + 全链路监控埋点(含代码)
hao# 实时 AI 对话 P99 延迟毛刺定位实录:4 段链路 + 6 类抖动 + 全链路监控埋点(含代码)本文聚焦实时 AI 对话(语音/文字 copilot、面试辅助、客服 bot)线上 P99 延迟毛刺,从链路拆解、抖动归类到监控埋点全链路落地。包含真实生产环境数据:P99 从 4.8s 拉到 1.1s,毛刺率从 17% 降到 0.6%。
2026-04-29 13:04:15
358
原创 面试讲项目的高分模板:从“流水账“到“问题驱动“全流程拆解(含 4 层追问预演 + 量化指标表 + 代码示例)
原则具体操作问题驱动而不是功能罗列先说问题,再说方案,最后说结果有规模感加用户量 / 数据量 / QPS 等数字有量化结果每个项目至少 3 个数字准备好被追问 4 层每个技术点准备 4 层弹药卡片3 分钟讲完给面试官追问空间主动画架构图展示全局视角翻车自救脚本复述 + 表态 + 给方向讲项目讲得好不好,决定了你在面试官心里的标签是“初级执行者”还是“能独立扛事的人”。
2026-04-28 05:32:56
352
原创 AI 实时对话系统内存泄漏排查实录:5 个最常见原因 + GC 工具实战(含代码)
所有全局表必须有 finally 兜底 + 心跳超时清理所有 generator / streaming buffer 必须 maxlen所有 cache 用 LRU,不用 dict;外加内存预算监控所有必须保存引用 + done_callback 自清所有 SDK client 显式配 timeout + max_retries=0 + 用async with包 streaming response上线前用 memray 跑 1 小时压测,看火焰图是否有意外热点。
2026-04-27 15:33:59
361
原创 面试场景 LLM 实时推理 token 缓存策略:千次压测后沉淀的 12 个工程优化点
面试场景下 LLM 实时推理慢的根因 90% 不在 GPU 算力,而在缓存命中率。本文沉淀千次压测后的 12 个工程优化点:prompt cache、KV cache 复用、prefix 顺序、流式 SSE、speculative decoding 等,附实测数据:首 token p50 从 1420ms 降到 380ms,单卡 QPS 从 4.2 提到 13.5。
2026-04-26 15:32:44
337
原创 实时 AI 推理延迟优化实战:从 2.3s 到 700ms 的全链路拆解(流式架构 + KV Cache + Token Streaming)
不是所有问题都需要最强模型。问候、闲聊、简单事实问题 → Qwen 3.5 Flash(TTFT 180ms)结构化回答、STAR 行为题 → GPT-4.1-mini(TTFT 320ms)代码题 / 系统设计 → Claude Sonnet(TTFT 450ms,但深度值得)路由器本身用一个 50ms 的小模型分类。看起来加了一步反而慢,但因为 70% 流量走 Flash,平均 TTFT 砍掉一半。HTTP/2 多路复用,避免 head-of-line blocking。
2026-04-25 14:01:50
554
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅