自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 MCP 企业接入实战:从 OpenAI 6/14 新公告到生产部署的 6 大踩坑指南

2026 年 6 月 14 日,OpenAI 把 ChatGPT Enterprise / Edu 的完整 MCP 支持 + Developer Mode 正式开了门——管理员、企业开发者可以直接在 ChatGPT 里上传、审核、发布带"写入/修改"权限的自定义 MCP 应用(这是 Model Context Protocol 自 2024-11 开源以来在上最显眼的一次落地。

2026-06-22 22:31:21 25

原创 OpenRouter 周榜实证:用真实流量数据做国产大模型选型决策(2026.6 第 3 周)

这一期的最大焦点是 DeepSeek-V4-Flash 连续第 5 周登顶。但很多评论文章漏掉了一个细节——DeepSeek 旗下还有一款定位"旗舰"的 DeepSeek-V4-Pro,为什么挂在头版的是 Flash 而不是 Pro?这个问题的答案,就是 OpenRouter 这种"路由层 + 比价"场景下选型逻辑的最佳样本。先看产品参数。根据DeepSeek V4 发布公告和DeepSeek-V4-Flash 官方介绍维度总参数 / 激活参数1.6T / 49B284B / 13B上下文窗口。

2026-06-22 22:14:35 41

原创 2026.6 Prompt Caching 成本实测横评:Anthropic / OpenAI / Gemini / 智谱 / DeepSeek 五家计费机制 + 长系统提示词复用省钱量化

Function Calling 时代,tools 定义往往比 system prompt 还长——20 个工具、每个工具 200 token 的 schema,加起来就 4000 token。这部分能不能缓存?你的同一段前缀是否会被复用 ≥ 2 次?├── 否 → 不开 cache(永远 break-even 不到)└── 是 → 请求间隔多大?├── < 5 min → 任意厂商 default 模式├── 5 ~ 60 min → Anthropic 切 1h TTL;

2026-06-22 05:22:22 293

原创 Function Calling 跨模型兼容层实测:OpenAI / Anthropic / Gemini / GLM / DeepSeek 五家协议差异+翻译层设计+真实 Agent 任务横评

是否需要五家以上模型可切?├── 否 → 走聚合平台或单一 provider OpenAI 兼容路径,不做翻译层└── 是 → 是否需要流式工具调用?├── 否 → 翻译层只写 to_anthropic / to_gemini + 响应统一,1 周可上线└── 是 → 翻译层 + 三套 stream 累加器 + 完整 mock 单测,2-3 周完整版一句话总结五家 Function Calling 协议的差距,不是模型能力差距,而是接口契约差距——

2026-06-22 05:17:24 183

原创 vLLM v0.23 vs SGLang vs TensorRT-LLM 三引擎企业自部署实测:吞吐 / 延迟 / 成本 / Agent 适配

月调用量 < 50M tokens?├── 是 → 用 API / 聚合平台,不要自部署└── 否 → 业务以 Agent / 多轮对话为主?├── 是 → SGLang(70B+ 集群 / 4×H100 起)└── 否 → 单一通用业务流?├── 是 → vLLM v0.23(最稳,生态最好)└── 否(极致性能 / 大规模 SaaS)→ TensorRT-LLM一句话总结三引擎已经不是"性能差距"问题,而是"场景适配 + 团队能力 + 模型生态"三角的权衡。默认起步 vLLM;

2026-06-19 22:06:30 308

原创 2026.6 旗舰大模型四强横评:GLM-5.2 / Claude Fable 5 / GPT-5 Preview / Gemini 3.0 中国企业接入决策

是否需要原生 video + audio?├── 是 → 海外主体?│ ├── 是 → Gemini 3.0 Pro│ └── 否 → GLM-5.2 + 外挂多模态(次优方案)└── 否 → 是否前沿编程 / 长程 Agent?├── 是 → 海外主体?│ ├── 是 → Fable 5(编程)/ GPT-5 Preview(Agent)│ └── 否 → GLM-5.2(合规可用,能力近似但有差距)└── 否(业务流场景)→ GLM-5.2(默认主选)一句话总结。

2026-06-19 21:54:13 611

原创 GLM-5.2 三通道实测:企业接入决策报告(智谱官方 / 国家超算 / 自部署对比 + 路由器实现)

GLM-5.2 于 2026 年 6 月 17 日发布,企业接入面临"智谱官方 / 国家超算互联网 / 自部署"三通道选型难题。本文从架构师视角,基于实测数据与公开 benchmark,对比三通道在延迟、吞吐、价格、合规、可用性、长上下文等 9 个维度的差异,给出 realtime / batch / longctx 三档场景下的决策矩阵,并附完整可跑的智能路由器实现(含 fallback、circuit breaker、Prometheus 埋点、Docker Compose 一键栈)。

2026-06-19 10:47:24 506

原创 长程 Agent 容错设计:从 Checkpoint 到 Durable Execution 的工程实践

当一次 Agent 任务跑两个小时、烧掉几十次 LLM 调用、写过磁盘、调过外部 API,Worker 重启那一瞬间,你希望发生什么?长回答就是这篇文章要讲的事情——从 Replay Boundary 第一性原理出发,拆解 LangGraph、Temporal、Anthropic Claude Managed Agents、Microsoft Durable Task 这四个主流方案的工程做法,再到 Idempotency Key、Fork & Replay 这些容易被忽视、但真出事时救命的细节。

2026-06-17 10:41:09 314

原创 对标 DuMate Harness:通用智能体 Token 降 75% 的 4 条工程路径拆解

为了保险,路径走弯了。一个真实的例子。我手上一个调用学术接口做研究综述的 Agent,单次任务平均 80 步、最长跑过 220 步。步骤类型占比是否必要实质性搜索/抓取38%必要已搜过但忘了,重复搜11%冗余反思链中的二次验证18%部分必要反思后又走回原方向9%冗余兜底自检(“再确认一下”)14%冗余最终整合10%必要冗余步骤合计 30%-50%。它们不是 Agent 设计错了,而是模型在不确定时倾向于"再搜一次保险一点"——这是大语言模型的天性,但天性会变成账单。

2026-06-16 15:05:12 502

原创 分级路由解决了“用什么模型“,缓存解决了“还需不需要调“——语义缓存命中率从 12% 到 38%:4 个工程坑

指标加击穿防御前加击穿防御后命中率35%38%命中率峰谷波动±9pp±2ppLLM 厂商 429 错误14 次/周0-1 次/周P99 延迟(命中路径)22ms24msP99 延迟(miss 路径)1.8s1.8s(无变化)命中率提升只有 3 个点,但命中率波动从 ±9pp 收敛到 ±2pp——这才是这个坑真正的价值。之前业务侧总抱怨"今天命中率怎么又跌到 25% 了",现在曲线基本贴着 38% 这条线走,业务方对成本的预测准确度高了一截。

2026-06-16 09:57:11 455

原创 分级路由策略实战:从 4 个真实业务场景倒推路由表设计

回到文章开头那个 44.6 万亿 Token 的数字。整个行业的调用量曲线已经一路向上、连续八周创新高,背后是越来越多的业务把 LLM 当作真正的生产基础设施在用。在这种背景下,分级路由不再是"奇技淫巧",而是 LLM 工程进入"成熟期"的必修课——就像十年前的微服务必须做服务降级、五年前的云原生必须做资源调度一样。我的判断很简单:在 44.6 万亿 Token 的市场盘子里,能把单位 Token 成本压到行业 1/3 的团队会形成结构性优势。

2026-06-16 09:19:24 499

原创 73.7万亿Token的代价:从Meta失控事件看企业级LLM成本治理架构

LLM 不再是研发玩具,而是必须被严肃运维的生产基础设施。任何把成本控制留给"使用者自觉"的团队,迟早会迎来自己版本的 Tokenmaxxing 危机。更深一层看,Token 治理本质上和 2014 年那波"上云治理"是一回事:从无序使用,到统一接入,到分级调度,到精细化计量——只是这一次的资源不是 CPU/内存,而是 Token。已经走完这条路的团队,会比还在裸调的团队便宜一个数量级。

2026-06-14 19:22:16 542

原创 大模型 API 价格全景图 2026.6:12 款主流模型成本实测与选型决策树

结论一:旗舰模型不再是"贵就完事",而是"性价比也在变好"Anthropic 在过去一年把 Claude API 价格降了约 40%;OpenAI 的 GPT-5.4-mini 输入价 $0.75 比上一代 GPT-4o-mini 在能力上提升了一个数量级;Google 把 Gemini 3 Pro 推到了 $2.0/$12.0 的位置;甚至 DeepSeek V4 Pro 在 4 月连续两次降价后输出价仅 ¥6/百万 Token。整个市场都在往"性能涨、价格降"的方向走。

2026-06-14 16:51:34 656

原创 国产大模型横评 2026 年中:Qwen3.5 / DeepSeek V4 / Doubao-Seed-2.0-pro / Kimi 谁是真王者?

国产模型不再是"GPT 的廉价替代品",而是在各自的差异化赛道上跑出了世界级身位。Kimi K2.6 用开源权重 + SWE-Bench Pro 第一,证明了开源也能打到闭源天花板DeepSeek V4-Pro 用 1/6 的价格、约 8 个月的智能差距,给国际厂商上了一堂"中国式性价比"的教学课Qwen3.5-Plus 用 1M 上下文 + 201 种语言,把"通用模型"做成了"基础设施"Doubao / GLM / MiniMax 则各自在多模态、推理、长上下文上找到了自己的"护城河"

2026-06-14 16:36:07 808

原创 生产环境LLM高可用方案:多模型热备与智能降级

本文摘要(149字): 生产环境LLM高可用方案通过多层级保障解决模型服务不可靠问题。核心采用多模型热备架构,包含主备三级模型池(国际模型/国产模型/本地Fallback),配合智能降级机制实现故障自动切换。方案重点解决API限流(45%)、超时(30%)等常见故障,对比不同SLA等级的实际可用时间(99.9%对应年故障8.76小时)。技术实现包含健康检查模块,通过主动探测和被动检测综合评估端点状态,设置错误率阈值(10%)和响应时间阈值(10秒)等指标,当连续失败达3次即触发降级,连续成功2次恢复服务。

2026-06-06 05:43:14 192

原创 大模型API统一适配层设计:告别多平台注册与多Key管理

本文探讨了大模型API统一适配层的设计,旨在解决开发者在多平台使用AI模型时面临的关键痛点: 多平台管理问题:开发者需处理20+主流平台的独立注册流程、计费体系、接口格式和安全策略 代码耦合困境:现有直接调用各平台SDK的方式导致业务逻辑与模型强绑定,存在切换成本高、测试困难、扩展性差等问题 核心解决方案是建立基于OpenAI兼容协议的统一适配层,通过: 标准化请求/响应格式(使用Pydantic模型定义) 兼容不同厂商API(包括国际模型如Claude/Gemini) 提供扩展字段支持定制需求 这种设计使

2026-06-06 05:38:06 206

原创 Token成本优化实战:如何降低大模型推理费用30%-50%

本文深入探讨了大模型Token成本优化的六大实战策略,帮助降低推理费用30%-50%。首先解析Token计费机制,指出输出Token价格通常是输入的3-10倍。核心策略包括:1)智能模型选型,根据不同任务复杂度选择性价比最优模型;2)Prompt压缩技术,通过移除空白、缩写指令等方法减少输入Token;3)智能缓存中间件,避免重复计算;4)批量请求优化;5)Token用量监控仪表盘;6)通过合规渠道获取更优惠的国际模型价格。文章提供了详细的代码实现和价格对比数据(截至2026年6月),并展示了一个日均10万

2026-06-06 05:02:37 275

原创 LLM多模型路由架构设计:从原理到生产实践

本文探讨了多模型路由架构的设计与实践,旨在解决单一LLM模型的局限性问题。文章分析了不同模型在场景适配、成本效果上的差异(如Claude长文本优势、GPT创意写作更佳),并对比了主流模型的计价差异。核心提出三种路由策略:成本优先(满足效果阈值下选最低成本)、效果优先(不计成本追求最佳表现)和均衡策略(加权评分综合考量)。生产环境关键设计包括:智能缓存降低重复请求成本、故障自动切换保障高可用、负载均衡优化资源分配。最后展示了分层架构设计(API网关-路由层-中间件-模型集群),并强调合规渠道在稳定性、价格和统

2026-06-06 04:56:30 443

原创 2026主流大模型API横评

2026年的LLM市场已经进入"诸神黄昏"时代:OpenAI的GPT-5.4、Anthropic的Claude Sonnet 4.6、Google的Gemini 3系列、国产的Qwen3.5、DeepSeek V4、字节的Doubao-Seed-2.0-pro…每个厂商都在吹嘘自己的最强。但作为开发者,我们需要的是,而不是PPT上的benchmark分数。本文将从三个维度,对国内外12款主流模型进行系统横评。

2026-06-05 22:01:01 329

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除