- 博客(156)
- 收藏
- 关注
原创 Qwen 3.7 Plus 与 Max 实测评估:性价比与多模态能力差异解析(2026)
Plus 接收视频输入,时长上限由百炼按 tier 限定。实战用法:扔进一段 15 分钟的录屏 standup,拿回一份带时间戳的 action item 清单。我们在三场录制的工程评审上测了,给出的 action item 准到我们已经停止手工记笔记了。Vision Arena 排名 #16 是头条数字,但它低估了实战提升。Vision Arena 考核的是通用图像理解任务。Plus 在实战中真正有用的地方在于:它的视觉能力和 Max 一样共用同一套推理 + 工具调用底座。
2026-06-11 19:25:34
183
原创 CLAUDE.md + Claude Code 配置实战:代码规范率从 60% 干到 95%,完整模板直接抄
上个月我们组新来了两个实习生,代码风格五花八门——有人写 camelCase,有人写 snake_case,Claude Code 生成的代码也跟着"入乡随俗",一会儿这个风格一会儿那个。我跑了一下 ESLint,规范通过率大概 60% 出头。老板说你搞定这事,别让 AI 写出来的代码还要人肉 review 半天。折腾了大概三天,最后靠一份 CLAUDE.md 把 Claude Code 生成代码的 lint 通过率拉到 95% 左右。
2026-06-11 15:22:25
224
原创 GPT-5.5 报 insufficient_quota 但余额明明够怎么办?3 种“伪没钱“情况排查实录
上周三下午,我们线上的 RAG 服务突然开始疯狂报,Sentry 十分钟内刷了 400 多条告警。我第一反应是余额花完了,登上 OpenAI 后台一看——还剩 $187。人傻了。直接回答标题问题:GPT-5.5 API 返回不一定是账户余额不足,实测有三种"伪没钱"情况:① 组织级 Spend Limit 触顶(最常见);② 刚充值但缓存未同步;③ Project Key 绑定到了已过期 Tier 的组织。三种情况的 HTTP 响应体字段有细微差异,下面逐个拆解怎么定位和验证。
2026-06-07 15:21:53
212
原创 Kimi K2 API 报 400 和流式挂起怎么办?3 个文档没写的坑和规避方案
问题触发条件报错信息实际原因规避方案system 超限system prompt > ~12K tokens(实测值,非官方)单轮 system 疑似有隐藏上限拆分到 user 轮tool_call_id 不匹配多轮 tool use 后 id 对不上格式校验比 OpenAI 严格发送前校验 id 一致性流式不关闭max_tokens 截断 + stream=true无报错,连接挂起疑似 bug:不发 [DONE],未经官方确认。
2026-06-06 22:43:40
232
原创 MiniMax M3 实测手记:踩完坑之后,我总结了报错处理和省 token 的几个办法
M3 的模型能力没问题,在 coding 和 agent 场景确实是第一梯队。但 API 的文档质量还需要追赶,特别是 streaming、cache、tool use 这些高级功能的说明太简略了,基本得自己摸索。建议先用免费额度把你的主要场景跑通,确认报错都处理干净了再上 Token Plan。别一上来就买 Ultra 套餐,用不完也不退。
2026-06-05 15:56:28
275
原创 WorkBuddy 安装后运行失败怎么办?Node.js / Git / .NET 三个环境逐条排查修复
上周三帮同事装腾讯的 WorkBuddy,结果他 Windows 笔记本上点完安装直接白屏,控制台一堆红色报错。我自己 Mac 上倒是一次过,但后来团队里又有两个人翻车了——一个缺 Git,一个 .NET 运行时版本不对。折腾了大半天才全搞定,把踩坑记录整理一下。WorkBuddy 运行失败 90% 的原因是本地缺少 Node.js(v18+)、Git 或 .NET Desktop Runtime 这三个依赖环境之一。定位方法是看安装目录下的或者用命令行手动跑一遍依赖检查,找到缺哪个装上就行。
2026-06-05 11:14:16
322
原创 Qwen3.7-Max 免费开放了,我把接入流程跑了一遍,有几个限制得提前知道
上周四(5 月 22 号)通义千问把 Qwen3.7-Max 的免费 Tier 正式开放了,掘金好几个帖子在讨论。我正好手上有个内部知识库问答的项目在用 Qwen3.7 Plus,想着免费的旗舰模型不白嫖一下说不过去,就花了大半天把接入流程从头跑了一遍。,如果你的业务有并发需求,得提前规划好降级策略。
2026-06-05 10:12:36
210
原创 Qwen3.7-Max 免费开放了,我把接入流程跑了一遍,有几个限制得提前知道
上周四(5 月 22 号)通义千问把 Qwen3.7-Max 的免费 Tier 正式开放了,掘金好几个帖子在讨论。我正好手上有个内部知识库问答的项目在用 Qwen3.7 Plus,想着免费的旗舰模型不白嫖一下说不过去,就花了大半天把接入流程从头跑了一遍。,如果你的业务有并发需求,得提前规划好降级策略。
2026-06-05 10:11:42
341
原创 Codex CLI 报 usage limits exceeded 怎么办?三种限速场景逐个击破
说实话一开始我以为是网络问题,重试了几次还是不行。后来花了大半天把 Codex CLI 的三种限速机制摸清楚了,发现不同情况的报错响应体长得不一样,处理方式也完全不同。这里直接把结论和方案整理出来。
2026-06-03 15:25:29
326
原创 第一次做 LoRA 微调,我把能踩的坑全踩了一遍,整理成这份避坑清单
上个月接了个私活,甲方要在 Qwen3-7B 上微调一个垂直领域的客服模型。我寻思 LoRA 微调嘛,2026 年了谁还不会这个,结果从数据格式到训练超参,能踩的坑我一个不落全踩了。跑了 4 天才出第一个能用的 checkpoint,期间 OOM 了十几次、loss 飙到 NaN 三次、生成结果全是乱码两次。把这些坑整理出来,希望后面的人少走弯路。
2026-05-27 15:22:36
414
原创 企业级 AI API 聚合平台对比 2026:主流大模型 API 中转站选型指南
2026 年值得企业认真对比的 AI API 聚合平台主要有四家:ofox.io、302.ai、硅基流动(SiliconFlow)、灵芽 AI。各平台侧重不同,选型错误容易掉坑,尤其对稳定性和合规要求高的团队。
2026-05-26 13:38:41
465
原创 Codex 官网访问 + 完整安装教程:macOS / Windows / Linux 一次跑通(2026)
上周有个朋友问我,Codex CLI 到底怎么装?折腾了一晚上各种报错。我自己当时也踩了不少坑,干脆写一篇从头到尾跑通的教程,macOS、Windows、Linux 三个系统全覆盖。
2026-05-25 17:28:20
31623
1
原创 我用 PaddleOCR 3.5 解析了 200 页乱版 PDF,这些坑你一定会踩
上个月接了个活,甲方丢过来一堆扫描件——合同、发票、技术手册混在一起,PDF 里什么幺蛾子都有:三栏排版的技术文档、表格跨页断裂、盖章盖在正文上面把字遮了一半。我一开始想着 PaddleOCR 3.5 刚出没多久,Transformers 后端加持,应该能硬吃这些脏数据吧?结果折腾了整整一周。官方 demo 里那些干干净净的样本跑出来确实漂亮,但真实世界的文档根本不长那样。这篇文章记录我实测 200 页乱版 PDF 的全过程,包括 PaddleOCR 3.5 和其他几个主流方案的对比数据。
2026-05-25 15:23:09
399
原创 我用 Gemini 搭了一套文献综述 Agent,帮我省了 80% 的时间
这一步要从每篇论文的摘要里提取:研究方法、核心贡献、数据集、性能指标。用 Pydantic 做 schema 约束输出格式。title: stryear: intmethod: str = Field(description="核心方法/模型名称")contribution: str = Field(description="主要贡献,2-3句话")datasets: List[str] = Field(description="使用的数据集")
2026-05-23 15:22:38
392
原创 ofox.ai 无法访问?解决方法在这里(最新)
最近 ofox.ai 出现了无法访问的情况——页面打不开、API 请求超时、工具里报连接错误。别慌,服务没挂,换个域名就好了。
2026-05-20 12:01:14
1015
原创 AI API 怎么用人民币付费?折腾了一周,我找到 3 种靠谱方案
上个月我接了个私活,甲方要做一个智能客服系统,需要调 Claude Opus 4.7 和 GPT-5.5 的 API。活儿不难,难的是付钱——甲方财务说公司没有外币信用卡,只能走人民币结算。我当时心想这能有多难?结果折腾了整整一周。直接回答:2026 年用人民币给 AI API 付费,主流方案有三种:一是用支持微信/支付宝充值的 API 聚合平台(如二是走国产云厂商的模型代理服务(阿里云百炼、火山引擎);三是找有外币通道的虚拟信用卡中转。三种方案各有优劣,下面我把踩过的坑全写出来。
2026-05-19 09:39:51
465
原创 2026 轻量模型 API 实测:GPT-5.5 Nano、Gemini 3.1 Flash、Haiku 4.5 延迟与成本横评
上个月我们团队在做一个客服意图识别的微服务,QPS 大概在 200 左右,对延迟要求比较苛刻——P95 必须压在 400ms 以内。一开始用的 Claude Sonnet 4.6,效果是好,但成本算下来一天要 ¥380+,老板直接说"换个便宜的,意图分类又不是写小说"。于是我花了三天时间把市面上主流的轻量级模型 API 都跑了一遍。说实话测完数据我人傻了——2026 年这些 nano/flash/haiku 级别的模型,能力已经逼近去年的旗舰了。
2026-05-17 09:39:23
401
原创 GPT-Image-2 老是生成失败?完整排查和修复指南,5 个真根因逐个击破
GPT-Image-2 老是生成失败?完整排查和修复指南,5 个真根因逐个击破GPT-Image-2 的处理时间比文字模型长很多——高质量 1024px 需要 145-280 秒。大多数所谓的"生成失败"其实不是模型问题,而是网络链路(CDN、反代、SDK)提前断开了连接。这篇文章总结了实际使用中最常遇到的 5 类问题,每个都附了可以直接用的修复代码。
2026-05-15 15:01:50
490
原创 Claude Opus 4.7 API 怎么计费?2026 最新价格拆解与调用实战
上个月我们团队的 RAG pipeline 要从 Sonnet 升级到 Opus,老板让我算算成本。说实话一开始我是拒绝的——Anthropic 官网那个 pricing page 写得跟天书似的,input/output token 分开算也就罢了,还有个 cache read 的价格藏在角落里。折腾了大半天,把账算明白了,顺便把调用跑通了,记录一下。Claude Opus 4.7 的官方定价是 input $15/MTok、output $75/MTok。
2026-04-30 16:38:38
900
原创 Coze 怎么接入 GPT API?3 种方案实测,最后一种 5 分钟搞定
上个月有个朋友找我帮忙,他在 Coze 上搭了一套客服 Bot,用的是平台自带的模型,效果一般。他想换成 GPT-5.5 来跑,但折腾了两天没搞定——Coze 的插件配置界面改了好几版,网上的教程大部分还是 2024 年的截图,对不上号。我花了一个周末帮他把三种方案都试了一遍,这里把完整过程记下来。Coze 接入 GPT API 的核心思路是:通过 Coze 的「插件」或「自定义模型」功能,把外部的 OpenAI 兼容接口接进来,替代平台默认模型。
2026-04-29 16:38:03
633
原创 2026 实测 5 家 AI API 聚合平台:延迟、稳定性、费率横评,附选型建议
上个月我们团队的 RAG 项目要从 Claude Sonnet 4.6 切到 Claude Opus 4.7,结果官方 API 的信用卡绑定出了问题,财务那边折腾了一周没搞定。老板直接拍板说:"找个聚合平台吧,别一家家申请了。于是我花了大概两周时间,把市面上能找到的聚合 API 平台挨个试了一遍。测之前我觉得这玩意不就是个代理嘛,能有多大差别?测完数据我人傻了——平台之间的延迟差距最大能到 3 倍,有的平台高峰期直接 timeout,有的手续费藏得很深不仔细算根本发现不了。
2026-04-28 16:38:45
477
原创 DeepSeek V4 预览版实测:4 家 API 聚合平台延迟与稳定性横评(2026)
上周四(4 月 24 号)DeepSeek V4 预览版刚上线,我们团队正好在做一个法律文档摘要的项目,老板让我"赶紧测一下 V4 到底比 V3.2 强多少,顺便看看从哪接最划算"。于是我花了两天半,把手头能用的几个聚合平台都跑了一遍。说实话,测完数据我人傻了——V4 预览版在长文本理解上的提升确实猛,但各平台之间的延迟差异比我预想的大得多。下面直接上结果。
2026-04-27 16:37:34
659
原创 OpenClaw 自动化交易机器人怎么配置?从零搭建 + 踩坑全记录(2026)
内置模板够用但不够灵活。比如我想加一个"恐惧贪婪指数"作为额外输入,模板就搞不定了。自定义 Skill 的核心是写一个handler.js});const prompt = `你是一个量化交易分析师。根据以下数据判断当前 BTC/USDT 的交易策略:市场数据(最近24根1小时K线):当前持仓:${JSON.stringify(positions)}恐惧贪婪指数:${fearGreedIndex}(0=极度恐惧,100=极度贪婪)请输出 JSON 格式:"reason": "简短理由",
2026-04-26 16:39:21
601
原创 OpenClaw 动态上下文配置怎么玩?从踩坑到跑通的完整教程(2026)
如果你已经有 RAG 系统,或者上下文需要实时从数据库/API 拉取,就得用 ContextProvider。"""从向量数据库动态拉取相关文档作为上下文"""# 根据用户问题去 RAG 检索# 把检索结果包装成 ContextBlock。
2026-04-25 17:18:34
368
原创 Claude API 超时怎么办?4 种方案实测,彻底告别 timeout 焦虑(2026)
上周赶一个项目,用 Claude Opus 4.7 做长文本摘要,结果连续三天被 timeout 搞得心态崩了。一个 8000 token 的请求,动不动就卡 60 秒然后甩一个回来。最气的是偶尔又能正常返回,完全没规律。花了两天把各种方案都试了一遍,踩了不少坑,今天把完整的排查和解决思路整理出来。Claude API 超时的原因基本就三类:请求 payload 太大导致生成时间超过默认 timeout、网络链路不稳定、并发请求触发速率限制排队。
2026-04-25 16:34:36
824
原创 2026 年大模型 API 实测天梯榜:DeepSeek v4、GPT-5、Claude 4.6、Gemini 3 谁值得接?
上周 DeepSeek v4 预览版一上线,HN 直接炸到 1886 分,我的群也跟着炸了——「v4 是不是真干翻 GPT-5 了?」「Claude 4.6 还有优势吗?」「千问旗舰到底什么水平?每次有新模型出来,我都得重新跑一遍评测,团队要决定接哪个模型、预算怎么分配。这次趁 DeepSeek v4 刚出,我把手头项目常用的 7 个模型全部拉出来跑了一轮,测了编码、推理、长文本、多模态四个维度。数据都是我自己跑的,不是从官方 blog 抄的 benchmark,场景偏实际开发,跟你们日常用法更接近。
2026-04-25 16:19:06
2076
1
原创 DeepSeek V4 Benchmark 首测:数学、代码、长文本三项全能?数据工程师跑完数据说真话
上周 DeepSeek V4 预览版刚上线,HN 直接冲到 1886 分,我的技术群瞬间炸了。作为一个天天跟数据打交道的数据工程师,我对"跑分屠榜"这种事早就免疫了——PPT 跑分和实际干活是两码事。所以我花了两天时间,拿 MMLU、HumanEval、LongBench 这几个公开 benchmark 自己跑了一轮,顺便拉上 DeepSeek V3、GPT-5、Claude Opus 4.6、GLM 5 做横向对比。
2026-04-25 16:07:28
927
原创 DeepSeek V4 vs V3 定价对比:团队每月能省多少钱?(2026)
指标单条输入 token~800~800~800单条输出 token~200~200~200日输入 token160 万160 万160 万日输出 token40 万40 万40 万日成本¥2.4¥4.8¥9.6月成本¥72¥144¥288摘要准确率~82%~94%~97%结论:这个场景 V3 完全够用,72 块一个月,准确率 82% 对客服摘要来说可以接受。如果你对质量有更高要求,V4 Flash 是性价比最优解,多花 72 块换 12% 的准确率提升。
2026-04-25 16:06:09
1696
原创 AI Agent 怎么从单体架构演进到多 Agent 协作?3 个阶段的踩坑实录
上周有个朋友问我:「你那个客服 Agent 是怎么做到同时查订单、算退款、还能写邮件的?」我说这玩意儿迭代了三版,从一个巨大的单 Agent 硬塞所有逻辑,到现在拆成 5 个专职 Agent 协作完成任务。说白了就是三步走:单 Agent 全能模式 → Router + 专职 Agent → 多 Agent 异步协作编排。每个阶段解决的问题不一样,踩的坑也完全不同。这篇文章就是我这半年折腾 Agent 架构的完整复盘。
2026-04-24 19:02:05
409
原创 DeepSeek V4 本地部署 + 生产级监控:从 Dockerfile 到 K8s 完整运维方案(2026)
上个月我们团队决定把 DeepSeek V4 部署到自己的 GPU 集群上,跑一些内部的代码和文档生成任务。说实话,模型跑起来不难,难的是怎么让它在生产环境稳定运行——我花了差不多一周时间,才把从容器化、K8s 编排到 Prometheus 监控的整条链路跑通。这篇文章把我踩过的坑和最终方案都整理出来了,希望能帮你少走弯路。
2026-04-24 17:34:27
4467
2
原创 DeepSeek V4 预览版实测:Agent、世界知识、推理能力,跟 V3 和 GPT-5.5/Claude 4.6 比到底什么水平?
上周 DeepSeek 放出了 V4 预览版的 API,我第一时间拿到了访问权限。说实话,官方博客里那些 benchmark 数字看着确实唬人——Agent 能力大幅提升、世界知识超越 GPT-5、推理逼近 Claude Opus 4.6。但作为一个被各家"自评跑分"坑过无数次的人,我决定自己跑一轮,用真实开发场景验证一下 DeepSeek V4 预览版到底几斤几两。
2026-04-24 17:20:04
770
原创 Claude API 中转怎么配置?2026 实测 3 种方案,最后一种改一行代码就行
上周 Claude Opus 4.6 更新之后,我手头好几个项目都想切过去试试。结果折腾了两天,官方 API 要么延迟高得离谱,要么直接超时。我一个做独立产品的,总不能每天花两小时在调网络上吧。所以我把市面上几种 Claude API 中转方案都试了一遍,记录下来给同样被这事折磨的兄弟们。Claude API 中转的核心思路就是通过一个中间层代理请求,绕开直连的高延迟和不稳定问题。目前主流方案有三种:自建反向代理、云厂商托管(AWS Bedrock / Google VertexAI)、API 聚合平台。
2026-04-24 10:09:18
427
原创 GPT-Image-2 API 接入实战:Python 调用 3 分钟搞定,附完整可运行代码(2026)
好多朋友找到我说,大霖,GPT-Image-2 这个图片生成模型到底怎么调 API?官方文档看得头大,代码跑不通,Key 还申请不下来。行,今天我把这事儿一次性说清楚。GPT-Image-2 是 OpenAI 2026 年推出的最新图片生成模型,通过兼容 OpenAI 协议的 API 即可调用。整个流程就三步:注册拿 Key、了解接口参数、跑通 Python 代码。我自己实测下来,从注册到第一张图片生成出来,真就 3 分钟。下面是完整的保姆级教程,代码直接复制就能跑。
2026-04-23 21:12:51
4148
原创 DeepSeek V4 API 完全指南:性能实测、成本测算与接入方案(2026)
DeepSeek V4 在 2026 年的开源模型里确实是个狠角色。SWE-Bench 58.2、GPQA 72.8,复杂场景下的表现摆在那里。更关键的是价格——输入 ¥4/百万 token,让很多之前因为成本用不起旗舰模型的团队有了新选择。在用 V3 的,尽快测试 V4,尤其是 Function Calling 和复杂推理场景,提升会很明显在用 GPT-5 或 Claude 但成本压力大的,V4 是目前最靠谱的降本选项开发阶段用聚合平台做多模型对比测试,确定最终方案后再决定生产环境的接入方式。
2026-04-23 14:25:40
4247
原创 GPT image-2 怎么调用?2026 完整接入教程 + 踩坑实录
上周接了个小活,甲方要做批量生成商品主图的工具。需求很明确:传一段文字描述,出一张高质量商品图。我第一反应是 DALL·E 3,但试了几张发现文字渲染还是拉胯,英文勉强能看,中文直接乱码。然后想起 OpenAI 前阵子放出来的 GPT image-2 —— 就是 ChatGPT 里那个画图贼强的模型,现在 API 终于开放了。折腾了两天,踩了不少坑,总算跑通了整个流程,写篇文章记录一下。
2026-04-22 21:58:24
3460
6
原创 MiniMax M2.7 API 调用实测:和 GPT-5、Claude Sonnet 4.6、Gemini 3 放一起比,结果有点意外
上周团队在做一个多模型路由的 RAG 项目,需要选一个性价比高的长上下文模型。MiniMax 刚发了 M2.7,号称百万级上下文、推理能力大幅提升,我寻思正好拉过来跟手头常用的几个模型做个横评。测完数据我人傻了——不是说 M2.7 不行,而是它在某些维度上的表现完全超出我对这个价位模型的预期,但另一些维度又确实拉胯。这篇文章不吹不黑,纯数据说话。
2026-04-22 14:23:10
832
原创 LangChain 怎么接 API?2026 三种方案实测,最后一种最省心
上周接了个私活,甲方要做一个能自动分析合同条款的小工具。需求不复杂:用户丢一份 PDF 进来,系统拆分段落、提取关键条款、给出风险评估。我一看这不就是典型的 LangChain + LLM 的活儿嘛,撸起袖子就开干。结果在"接 API"这一步卡了大半天。LangChain 接 API 核心就三步:安装依赖、配置 LLM 对象、传入 api_key 和 base_url。但坑在于,2026 年模型太多了,官方 SDK 版本又老在变,不同模型的接入方式差异还挺大。
2026-04-22 10:07:53
416
原创 Claude Tool Use 完全教程:从零实现 Function Calling,附完整代码(2026)
定义工具列表(JSON Schema 格式)tools = ["description": "获取指定城市的天气信息,包括温度、湿度、天气状况","city": {"description": "城市名称,如:北京、上海、深圳"},"date": {"description": "日期,格式 YYYY-MM-DD,不传则默认今天"},},"description": "查询两个城市之间的航班信息","description": "出发城市"},
2026-04-22 09:32:28
581
原创 OpenClaw 智能代理核心机制详解:Skills 框架 + Agent 编排实战(2026)
先从最简单的开始——定义一个文本情感分析的 Skill。# 定义一个 Skilldescription="分析用户输入文本的情感倾向,返回正面/负面/中性及置信度",# 触发条件:Intent Router 用这个描述来匹配"分析情感", "这段话是什么情绪", "判断正面负面","sentiment", "情感分析"],# Skill 的 prompt 模板system_prompt="""你是一个情感分析专家。
2026-04-21 14:24:40
558
原创 GPT-5.4 API 怎么低延迟调用?2026 年 5 种接入方案实测对比
上周 OpenAI 悄悄放出了 GPT-5.4,号称推理能力又上了一个台阶。我第一时间想接入到项目里试试,结果老问题又来了——官方 API 延迟高、Key 申请排队、计费规则又改了。折腾了两天,把市面上能找到的接入方案都试了一遍,今天把实测数据分享出来,省得大家重复踩坑。
2026-04-21 10:07:20
634
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅