自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

码哥字节

《Redis 高手心法》畅销书作者,擅长 Redis、Kafka、Tomcat、MySQL、SpringCloud 云原生微服务架构技术

  • 博客(368)
  • 资源 (1)
  • 收藏
  • 关注

原创 输入网址按回车,到底发生了什么

详解输入网址点击回车,后台到底发生了什么。透析 HTTP 协议与 TCP 连接之间的千丝万缕的关系。掌握为何是三次握手四次挥手?time_wait 存在的意义是什么?全面图解重点问题,再...

2020-08-31 08:48:48 422

原创 Tomcat 高并发之道原理拆解与性能调优

上帝视角拆解 Tomcat 架构设计,在了解整个组件设计思路之后。我们需要下凡深入了解每个组件的细节实现。从远到近,架构给人以宏观思维,细节展现饱满的美。关注「码哥字节」获取更多硬核,你...

2020-08-17 09:00:00 728 2

原创 Tomcat 架构原理解析到架构设计借鉴

Tomcat 架构原理解析到架构设计借鉴Tomcat 发展这么多年,已经比较成熟稳定。在如今『追新求快』的时代,Tomcat 作为 Java Web 开发必备的工具似乎变成了『熟悉的陌生人』,难道说如今就没有必要深入学习它了么?学习它我们又有什么收获呢?静下心来,细细品味经典的开源作品 。提升我们的「内功」,具体来说就是学习大牛们如何设计、架构一个中间件系统,并且让这些经验为我所用。美好的事物往往是整洁而优雅的。但这并不等于简单,而是要将复杂的系统分解成一个个小模块,并且各个模块的职责划分也要清晰

2020-07-06 18:18:49 1171

原创 我把 4 年踩坑经验「蒸馏」成 Claude Code Skill 开源了

它的价值不依赖团队规模,依赖的是"高风险特性 + 独立视角验证"这个组合——哪怕你是一个人开发,dispatch 一个不带设计文档的 reviewer agent 都比你自己再看一遍有效。文档里说"这里保证了幂等性",reviewer 就会在看到对应代码时默认"嗯,这里处理过了"——然后真正的漏洞就在这个默认里溜走了。排查了四个小时,找到了原因:在某个特定的并发窗口下,幂等键虽然写进去了,但写入和读取之间有一个竞态——两个请求几乎同时抢到了同一把锁的空档期,各自独立走完了退款流程。

2026-05-06 09:02:14 64

原创 Spring Boot 4.1发布,这项特性超强!但大多数升级教程都没提这个不兼容变更

AOT 的核心价值是:在编译阶段把 Spring 的 Bean 注册、条件判断、依赖注入等运行时逻辑预先生成为静态代码,这样用 GraalVM 编译成原生镜像后,启动速度可以从秒级降到毫秒级,内存占用也能减少 50-80%。Spring Boot 4.x 的虚拟线程自动配置只在 Java 21+ 环境下生效,Java 17/21 只是最低要求,不代表 Java 17 能用虚拟线程。说到底,框架升级这件事没有时间表压力的话,最好的策略是:先在一个非核心服务上试水,跑一个月,把坑踩完,再推广到核心链路。

2026-05-04 09:42:09 313

原创 开多个 Agent 后 Claude Code 账单翻了 4 倍,一个配置解决了

场景:重构一个有 15 个文件的 Spring Boot 服务,Claude Code 自动启动了 4 个子 Agent(2 个 Explore,1 个 General-purpose,1 个 Plan),主 Agent 负责协调和最终修改。配置完之后,我跑同样的多 Agent 任务,账单从。指向 DeepSeek,但没有明确指定子 Agent 用哪个模型,Claude Code 在内部路由时可能把子 Agent 也路由到 V4-Pro——跟主 Agent 一样贵,但只是在做一些读文件、搜索这类简单任务。

2026-05-03 11:47:45 444

原创 Claude Code 接入 DeepSeek V4 实战:400 万 Tokens 从 26 降到 2

差距主要出现在需要深度理解业务背景做权衡决策的场景,Claude Sonnet 4.6 在这里会更主动地给出有见解的建议,V4-Pro 有时更"执行型"。我把 Claude Code 的后端切换到 DeepSeek V4 跑了一遍,用了同样量级的 tokens,账单是 $2.3。如果工作流里有大量截图、视觉内容,或者对最新模型能力有依赖,继续付 Claude 官方的价格是合理的。不是"碾压",是"非常够用"。如果你的代码涉及公司敏感信息或有合规要求,这是需要认真评估的问题,不是买便宜就完事的。

2026-05-02 11:31:33 499

原创 把 API 从 GPT 切到 DeepSeek V4,费用降了 4.3 倍,省了钱,也踩了这些坑

换掉,其余代码不动。论文给出的数据很说明问题:在 1M token 上下文设置下,V4-Pro 的推理 FLOPs 只需要 V3.2 的 **27%**,KV cache 大小只需要 V3.2 的 **10%**。主流模型用的是 AdamW,V4 换成了 Muon 优化器,在大规模训练中收敛更快、稳定性更好,等效于用同样的算力预算训出更好的模型。这个问题我研究了两天,答案不是一句"值得"或"不值得"能说清楚的——但如果你看完这篇还不确定,那大概率是因为你的场景有什么特殊约束,可以直接看 FAQ 找答案。

2026-04-29 09:02:47 466

原创 Google给竞争对手Anthropic投了400亿:这件事比你想的更反常

OpenAI如果想复制这个结构,需要在Azure之外找到另一个愿意出类似规模资金的云平台,现在看来只有Google Cloud,但Google同时有自己的模型业务,谈判复杂度更高。两个团队的利益诉求不同,做的是不同的生意。对这件事有清醒的认识,有助于你在做技术选型时不只看「模型好不好」,还要问:这个AI服务背后的云依赖,是否和你现有的基础设施方向契合?对Google来说,每一笔Anthropic花在Google Cloud TPU上的钱,都是Google Cloud的营收,都会在财报里反映。

2026-04-28 09:00:36 283

原创 三个 Spring 注解,让 Claude 直接调你的业务接口

你在请求里告诉模型「有这几个函数,参数格式如下」,模型决定要不要调用,返回一个结构化调用指令,你的代码去执行,再把结果塞回 Prompt。你的服务独立部署成一个 MCP Server,任何支持 MCP 协议的客户端——Claude Desktop、Cursor、自己写的 Agent——都能发现和调用你的工具,不依赖具体模型,一次开发到处复用。说到底,MCP 解决的核心问题是「工具定义和模型解耦」——你写一次,任何支持 MCP 的 AI 客户端都能用,不用跟着每个模型的格式调整。

2026-04-27 09:29:06 235

原创 登上 GitHub 热榜第一,声称免费在终端用 Claude Code,背后有点扯

另一个问题是能力预期。它和"免费使用 Claude"没什么关系,它是"免费使用其他模型,但界面是 Claude Code"。但看了一眼项目,发现这件事比我想象的复杂——这个工具既没有黑 Anthropic 的账号,也没有劫持 OAuth Token,它确实可以跑起来,确实是"免费的"。如果你只是想要一个"便宜的 Claude Code 替代品",其实 Anthropic 自己的 API 配合 Cursor 或 Cline 会是更清晰的选择——你知道钱花在了哪里,数据发给了谁,出了问题也有明确的责任方。

2026-04-26 09:01:42 516

原创 DeepSeek-V4百万Token,为什么推理成本反而只要以前的10%,其实DeepSeek真正赢在架构创新上

A: 从原理上说,是的。两条线是独立的但相互依赖的——可以理解为 V4 是下一代底座,如果后续有 R2,大概率会是在 V4 上做推理增强训练。DeepSeek 的测试表明在主流任务上影响有限,但这仍然是一个需要在实际使用中持续观察的权衡点,特别是在需要极精细长程依赖推理的场景下。官方一直没有明确时间线,但从各种信息源拼凑出来的情况大概是这样:V4 的核心训练早就完成了,但他们选择了一件很难的事——在正式发布前,先把模型在华为昇腾 910B 和寒武纪 MLU 芯片上跑通,而且要达到生产可用的性能水平。

2026-04-25 13:19:38 580

原创 Claude Opus 4.7 同样文本的 token 数增加最多 35%,AI Agent 运营成本正在指数级增长

上下文膨胀的成本是随轮次线性增长的,即使用 Haiku,一个 20 轮的对话的 input cost 仍然是 1 轮的 20 倍。一个典型的 10 轮对话,不加处理的 context 可能是 50,000 tokens,用分层裁剪压缩后通常可以控制在 15,000-20,000 tokens 以内,同时保留所有关键信息。一个需要 10 步推理的代码调试 agent,和一个需要 3 轮的客服 agent 相比,token 成本可能高出 5-10 倍——不是因为任务逻辑复杂,而是纯粹因为上下文长度在滚雪球。

2026-04-22 09:01:50 534

原创 10 个顶级 Claude Code Skills,装上就删不掉!附真实使用场景和效果对比

至于冲突,superpowers 里的 Skills 设计上是互补的,但如果你同时安装了来自不同来源的多个 Skills,偶尔会出现"两个 Skills 都想处理同一类任务"的情况。坦白讲,没有这个 Skill 之前,我让 Claude 写代码,它会先写实现,然后我问"帮我补测试",它补的测试几乎都是在测它自己的实现,而不是在验证业务行为。我打了个勾,推上去了。触发后 Claude 会输出一个结构化的分析报告,包含 3-5 个方案对比,以及一个明确的推荐意见(不是"各有优劣"的废话,是有立场的判断)。

2026-04-21 09:01:52 332

原创 Claude Code 写完代码就完了?我用一个自研 Skill 编排了 7 阶段严谨开发工作流,拦下 10 个 Critical Bug

这两个心态完全不一样——Phase 6 发生在你最自信的时候,而"最危险的时刻就是你感觉最自信的时候"。我把这个 skill 的完整源码、这次踩坑的所有设计文档和修复 plan 都整理好了,下一篇打算写「冷上下文 reviewer 找出的 10 个 Critical Bug 的详细复盘,每个 bug 附上原始 prompt 和修复 commit」,关注一下,发了第一时间推送。熟悉设计的 reviewer 会默认作者的假设是对的,从而看不到"这个假设本身就是错的"。按过去的习惯,我就准备 merge 了。

2026-04-20 09:00:56 564

原创 我把 Copilot、Claude Code 卸载了,然后得出了一个让同事沉默的结论

这不是悲观的预言,是可以验证的趋势——看看现在的高级工程师岗位面试,手写代码、系统设计、故障排查,这些完全不依赖 AI 的能力仍然是核心评估维度。让 AI 生成测试框架,你来 review 并补充遗漏的场景,是真正把认知资源用到了有价值的地方——「哪些边界条件需要测试」这个判断是需要人来做的,「把这些条件写成代码」的机械部分交给 AI 完全合理。这是使用 AI 最常见的认知陷阱:生成的内容有足够的可信度,让你不会去质疑它,也不会去深挖它,结论在纸面上是完整的,但你脑子里没有对应的推理结构。

2026-04-19 13:12:37 246

原创 为什么 AI 写代码正在变成一个分布式系统问题

Team Lead 负责解决这些冲突,但它的判断依赖于它能理解三个 Agent 各自修改的意图——这要求 Team Lead 的 context 里包含足够的信息,又回到了 context window 瓶颈的问题。这也是为什么 Claude Code 引入了 worktree 隔离机制——给每个 Agent 一个独立的 git worktree,相当于分布式数据库里的「乐观锁」:先让大家各自跑,冲突了再解决。部分会,但不会完全消失——因为它们是分布式系统的本质困难,不是工程优化能消除的。

2026-04-18 10:26:33 293

原创 Claude Code 自定义 Agent 实战,打造 3 个专属智能体

但因为 Agent 的 context 是独立的、只包含它自己的 system prompt 和工作内容,所以实际可用空间比主对话的「剩余空间」大得多。当 Claude 判断当前任务适合委托给某个 Agent 时,它会启动一个独立的 context window,加载这个 Agent 的 system prompt,然后让这个 Agent 独立完成任务并返回结果。3)它运行过程中的工具调用结果。你可以在 Agent 的 prompt 里写:「审查完后,把发现的项目约定保存到你的 memory 目录。

2026-04-17 09:02:46 342

原创 Claude Code Hooks 2026 完整实战指南:6 个生产可用的 Hook 场景,附完整脚本和配置

它让你可以在 Agent 的生命周期中插入自定义的 Shell 脚本、HTTP 请求甚至 LLM 判断,实现从「信任 Agent」到「信任但验证」的转变。这在企业环境里特别有用——安全团队可以维护一个中心化的策略服务,所有开发者的 Claude Code 实例都通过 HTTP Hook 对接。和 Web 开发里的中间件一样,最好的 Hook 是你写完就忘了它存在——它在背后默默工作,只在真正危险的时候跳出来拦你一下。问题是,那个目录里还有一份我手动调试时放进去的配置文件——没有提交到 Git,直接没了。

2026-04-15 09:02:11 603

原创 Claude Code vs Cursor vs Codex:别再纠结了,2026 年 AI 编程工具这样选就对了

关键是统一代码质量标准,而不是统一工具。$120/月的 Cursor Pro + Claude Code Max 组合是目前的甜蜜点——日常编码心流不断,复杂任务深度处理,批量任务偶尔借助 Codex 免费额度。我的判断:2026 下半年,三者的功能边界会开始模糊——Cursor 会加强异步和终端能力,Claude Code 可能推出更轻量的编辑器集成,Codex 会增加实时交互模式。Claude Code 的做法:我把需求描述清楚,它先扫描整个项目结构,理解模块间的依赖关系,然后制定重构计划,逐步执行。

2026-04-14 09:01:57 642

原创 用了这套配置,Claude Code 终于不用我反复交代背景了,2026 最强 Hooks、Skills、Agents 实战

每次打开 Claude Code 新会话,我都要先来一段开场白:"这是一个 Node.js 项目,用的 Prisma + Express,测试框架是 Jest,别动 package-lock.json,别碰 .env 文件……每次新开会话,上下文清零,规则清零,约束清零。CLAUDE.md 是它的长期记忆,Skills 是它的专业技能库,Hooks 是它的行为准则,Agents 是它的团队分工。CLAUDE.md 能解决"每次都要交代项目背景"的问题,但它是全量加载的——写多了会吃掉宝贵的上下文窗口。

2026-04-13 09:01:18 625

原创 Valkey 分叉 Redis 两年后的真实对比:25.4k stars、10 亿 RPS 集群、230% 吞吐提升

有了官方的 Spring Data 模块,意味着 Java 社区不再需要把 Valkey 当作「兼容 Redis 的替代品」来使用,它有了自己的一等公民身份。但如果你用的是 Redis Stack 的高级功能(全文搜索、JSON 操作),两者没有直接可比性——Valkey 刚开始做搜索功能(Valkey Search),成熟度还不够。这不是小修小补,这是架构级别的性能飞跃。有 Linux 基金会的治理、有云厂商的工程师投入、有 BSD 许可证的无限制使用——Valkey 的护城河不是技术,是信任。

2026-04-12 11:27:17 570

原创 为什么我的 Claude Code 老是不按我说的做?如何写出让 Agent 准确执行的「共识协议」

如果你的项目要兼容多个 AI 工具(比如同时用 Claude Code 和 Cursor),可以把通用规范放 AGENTS.md,Claude 专属配置放 CLAUDE.md。:如果你在子目录和根目录的 CLAUDE.md 里写了矛盾的指令(比如根目录说「用 ESLint」,子目录说「用 Biome」),Claude 会优先听离当前工作目录更近的那个。:如果 CLAUDE.md 里的指令有歧义,不同 Agent 可能做出不同的解读——就像拜占庭将军问题里,同一条命令被不同节点解读出不同含义。

2026-04-08 09:00:24 578

原创 技术干货:Redis缓存问题深度解析,让你告别穿透、雪崩和击穿!

缓存穿透、缓存雪崩、缓存击穿,这三个词你可能都背过,但真正在生产环境里遇到时,能不能快速判断是哪种、知道怎么处理,是另一回事。排查了两个小时,最后找到原因——一个活动页面的查询逻辑在 Redis 没有命中时,每次都打穿到数据库,而且这批请求的 key 根本就不存在,全是用户拼出来的无效 ID。:有团队为了防雪崩,直接给所有缓存设置永不过期(TTL = -1),结果内存耗尽,Redis 触发内存淘汰策略把热点数据淘汰了,反而造成了更严重的缓存失效。,缓存空值会把 Redis 塞满,反而造成新的问题。

2026-04-03 09:02:00 310

原创 Claude Code 最值得安装的 10 个开源 Skills 最佳实战

本文关键词: ["Claude Code Skills", "superpowers Claude Code", "Claude Code 开源", "AI 编程工作流", "Claude Code 技巧", "anthropics skills"] platform: "掘金 / 个人博客" source: "GitHub Trending + GitHub obra/superpowers + anthropics/skills"但从一周或一个月的维度看,"不走弯路"节省的时间远超"多花的流程时间"。

2026-04-01 09:00:44 620

原创 搞懂 Claude Code 的 Agent 编排原理,我再也不一个个对话了

更关键的是,context 越长,模型的注意力就越分散——不是说它记不住早期内容,而是在海量信息中提取关键信号的能力会下降。Agent Teams 的 Teammate 本质上是特殊的 Sub-agent,所以「Teams 里的 Teammate 调用外部 Sub-agent」这种嵌套不支持,会触发前面说的嵌套限制。它有自己独立的 context window——这意味着它不会「看到」主对话里的历史,只知道你分配给它的任务和它自己的工具调用记录。如果这三个问题的答案都是「是/高/高」,那多智能体值得上。

2026-03-31 09:01:10 381

原创 Claude Code Skills 完全指南:从零打造你的生产级别 AI 编程助理工作流

这个是真正的"重武器"。你的团队有 30 个常用工作流,不需要每次 session 都全部加载进 context,只在真正需要的时候才触发,既省 Token 又不干扰 Claude 的注意力。命令会先执行,把真实的 PR 数据注入到 Skill 内容里,然后 Claude 拿到的是包含完整 PR 上下文的提示词,不需要你手动粘贴任何东西。两者的区别在于:差的 description 描述的是"这个工具是什么",好的 description 描述的是"用户会在什么情况下用这个工具"。

2026-03-30 09:02:11 271

原创 gRPC vs REST:内部服务用 gRPC,对外接口用 REST

和 REST/gRPC 的对比不在同一层——GraphQL 通常跑在 REST over HTTP 上,关注的是查询灵活性,不是传输效率。在微服务场景下,Uber Engineering 分享的内部测试 显示,在 p99 延迟相同的条件下,gRPC 的吞吐量约是 REST/JSON 的。迁移的代价远比你想象的大——不只是改接口,还有监控体系、错误处理、日志格式、API 网关配置全套都要动。REST 优化的是「接口契约的可理解性和互操作性」,gRPC 优化的是「服务间通信的效率和类型安全」。

2026-03-23 09:01:16 400

原创 2026 年初,AI 编程工具的竞争格局正在悄悄改变

3月21日,腾讯云架构师技术同盟将在深圳腾讯大厦举办「AI软件工程:从Vibe Coding到Spec Coding」城市沙龙,聚焦AI驱动下的软件工程范式变革。▎ 踩坑:open-swe 依赖 Python 3.11+,3.10 会遇到 typing.Self 报错,用 pyenv 切换版本解决。轻量级 CLI,把多个 Claude Code 任务串联成工作流,相当于给 AI 写一份「操作手册」。开源工具还没到「完全替代」Cursor 的程度,但对有特定需求的开发者,已经生产可用。

2026-03-19 22:04:32 592

原创 如何在不停机的情况下保证迁移数据库数据的一致性?

当你能够清晰描述迁移过程中的每个细节、每个决策背后的思考时,这个面试点就已经成为你的优势所在了。我注意到很多开发者在简历中会提到“负责过数据迁移项目”,但在面试中一旦深入追问,却往往说不清楚具体实施方案,或者只能给出“停机迁移”这种简单粗暴的答案。数据迁移是一个能够综合体现你设计复杂方案解决棘手问题能力的绝佳场景,它能全面展示你在数据库原理、系统设计、风险控制等多方面的技术积累。面对“如何做数据迁移”这个问题,展现你从业务需求分析,到技术方案设计,再到风险控制评估的完整思考过程,这才是真正的加分项。

2026-03-18 09:02:08 322

原创 Redis 8.0~8.4 重要更新,新特性很强!

在十亿向量规模下,Redis 8每秒可维持66,000次向量插入(95%精度),或160,000次向量插入(较低精度)。Redis 8.0到8.4,不是简单的版本迭代,是一次底层重构,是一次性能飞跃,更是一次对未来的重新定义。30多项性能改进,命令速度提升87%,吞吐量翻倍,复制速度加快18%,查询处理能力提升16倍。30多项性能改进,命令速度提升87%,吞吐量翻倍,复制速度提升18%,查询处理能力提升16倍。从Redis 7.4、Redis Stack 7.2/7.4,直接升级到Redis 8。

2026-03-16 09:01:25 462

原创 评测体系崩了!AI开始“作弊“,你被数据骗了多久?

OpenClaw智能体在GitHub两月拿下30万星标,让AI从"只会聊天"变成"能干活"。3月21日,腾讯云架构师技术同盟将在深圳腾讯大厦举办「AI软件工程:从Vibe Coding到Spec Coding」城市沙龙,聚焦AI驱动下的软件工程范式变革。Anthropic的Claude Opus 4.6在BrowseComp测试中,不找答案,直接找"写着答案的答案卷"。某3C企业接入AI后,客服团队从200人减至40人,转化率反而提升37%。运行环境复杂,稳定性不足,用户反馈"太贵、太慢且不够可靠"。

2026-03-15 15:57:39 249

原创 评测体系崩了!AI开始“作弊“,你被数据骗了多久?

OpenClaw智能体在GitHub两月拿下30万星标,让AI从"只会聊天"变成"能干活"。3月21日,腾讯云架构师技术同盟将在深圳腾讯大厦举办「AI软件工程:从Vibe Coding到Spec Coding」城市沙龙,聚焦AI驱动下的软件工程范式变革。Anthropic的Claude Opus 4.6在BrowseComp测试中,不找答案,直接找"写着答案的答案卷"。某3C企业接入AI后,客服团队从200人减至40人,转化率反而提升37%。运行环境复杂,稳定性不足,用户反馈"太贵、太慢且不够可靠"。

2026-03-15 15:57:39 526

原创 评测体系崩了!AI开始“作弊“,你被数据骗了多久?

OpenClaw智能体在GitHub两月拿下30万星标,让AI从"只会聊天"变成"能干活"。3月21日,腾讯云架构师技术同盟将在深圳腾讯大厦举办「AI软件工程:从Vibe Coding到Spec Coding」城市沙龙,聚焦AI驱动下的软件工程范式变革。Anthropic的Claude Opus 4.6在BrowseComp测试中,不找答案,直接找"写着答案的答案卷"。某3C企业接入AI后,客服团队从200人减至40人,转化率反而提升37%。运行环境复杂,稳定性不足,用户反馈"太贵、太慢且不够可靠"。

2026-03-15 15:57:39 552

原创 评测体系崩了!AI开始“作弊“,你被数据骗了多久?

OpenClaw智能体在GitHub两月拿下30万星标,让AI从"只会聊天"变成"能干活"。3月21日,腾讯云架构师技术同盟将在深圳腾讯大厦举办「AI软件工程:从Vibe Coding到Spec Coding」城市沙龙,聚焦AI驱动下的软件工程范式变革。Anthropic的Claude Opus 4.6在BrowseComp测试中,不找答案,直接找"写着答案的答案卷"。某3C企业接入AI后,客服团队从200人减至40人,转化率反而提升37%。运行环境复杂,稳定性不足,用户反馈"太贵、太慢且不够可靠"。

2026-03-15 15:57:39 216

原创 评测体系崩了!AI开始“作弊“,你被数据骗了多久?

OpenClaw智能体在GitHub两月拿下30万星标,让AI从"只会聊天"变成"能干活"。3月21日,腾讯云架构师技术同盟将在深圳腾讯大厦举办「AI软件工程:从Vibe Coding到Spec Coding」城市沙龙,聚焦AI驱动下的软件工程范式变革。Anthropic的Claude Opus 4.6在BrowseComp测试中,不找答案,直接找"写着答案的答案卷"。某3C企业接入AI后,客服团队从200人减至40人,转化率反而提升37%。运行环境复杂,稳定性不足,用户反馈"太贵、太慢且不够可靠"。

2026-03-15 15:57:39 470

原创 评测体系崩了!AI开始“作弊“,你被数据骗了多久?

OpenClaw智能体在GitHub两月拿下30万星标,让AI从"只会聊天"变成"能干活"。3月21日,腾讯云架构师技术同盟将在深圳腾讯大厦举办「AI软件工程:从Vibe Coding到Spec Coding」城市沙龙,聚焦AI驱动下的软件工程范式变革。Anthropic的Claude Opus 4.6在BrowseComp测试中,不找答案,直接找"写着答案的答案卷"。某3C企业接入AI后,客服团队从200人减至40人,转化率反而提升37%。运行环境复杂,稳定性不足,用户反馈"太贵、太慢且不够可靠"。

2026-03-15 15:57:39 516

原创 评测体系崩了!AI开始“作弊“,你被数据骗了多久?

OpenClaw智能体在GitHub两月拿下30万星标,让AI从"只会聊天"变成"能干活"。3月21日,腾讯云架构师技术同盟将在深圳腾讯大厦举办「AI软件工程:从Vibe Coding到Spec Coding」城市沙龙,聚焦AI驱动下的软件工程范式变革。Anthropic的Claude Opus 4.6在BrowseComp测试中,不找答案,直接找"写着答案的答案卷"。某3C企业接入AI后,客服团队从200人减至40人,转化率反而提升37%。运行环境复杂,稳定性不足,用户反馈"太贵、太慢且不够可靠"。

2026-03-15 15:57:39 333

原创 评测体系崩了!AI开始“作弊“,你被数据骗了多久?

OpenClaw智能体在GitHub两月拿下30万星标,让AI从"只会聊天"变成"能干活"。3月21日,腾讯云架构师技术同盟将在深圳腾讯大厦举办「AI软件工程:从Vibe Coding到Spec Coding」城市沙龙,聚焦AI驱动下的软件工程范式变革。Anthropic的Claude Opus 4.6在BrowseComp测试中,不找答案,直接找"写着答案的答案卷"。某3C企业接入AI后,客服团队从200人减至40人,转化率反而提升37%。运行环境复杂,稳定性不足,用户反馈"太贵、太慢且不够可靠"。

2026-03-15 15:57:39 528

原创 评测体系崩了!AI开始“作弊“,你被数据骗了多久?

OpenClaw智能体在GitHub两月拿下30万星标,让AI从"只会聊天"变成"能干活"。3月21日,腾讯云架构师技术同盟将在深圳腾讯大厦举办「AI软件工程:从Vibe Coding到Spec Coding」城市沙龙,聚焦AI驱动下的软件工程范式变革。Anthropic的Claude Opus 4.6在BrowseComp测试中,不找答案,直接找"写着答案的答案卷"。某3C企业接入AI后,客服团队从200人减至40人,转化率反而提升37%。运行环境复杂,稳定性不足,用户反馈"太贵、太慢且不够可靠"。

2026-03-15 15:57:39 612

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除