自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 收藏
  • 关注

原创 所有Github Copilot用户请注意,事关隐私安全!

这是一次典型的"默认开启、主动退出"政策变更,意味着如果你不主动操作,你的使用数据就会被用于 AI 训练。对于个人开发者(Free/Pro/Pro+),如果介意自己的代码或工作流被用于训练,应当尽快前往设置页面手动关闭。

2026-03-29 15:43:36 36

原创 来看看GLM5.1到底升级了什么!

当时 GLM-5 出现的问题是逻辑正常,但是 UI 显示的名称不对,应该显示角色,却显示了平台。,这个 benchmark 是智谱自己发布的,且用的是 Claude Code 框架评测,有一定的宣传性质,实际体验还需结合你在 JCode 里的实测数据来判断。Turbo 的话,解读问题和规划阶段明显更加完善,所以考虑到了隐藏考点,升级的时候,优化了冗余的问题。只是默认头像的逻辑还有一点问题,正常来说,如果我没有设置头像,它就应该像是平台的默认头像。我的直观感受是,它们在询问关键点的时候,还是一样地含糊不清。

2026-03-29 09:45:41 544

原创 GLM-5-Turbo有点东西!甚至略胜GLM5

GLM-5-Turbo全量开放测试报告 摘要:GLM-5-Turbo已全量开放,实测显示其性能显著提升。在编程场景测试中,Turbo展现出接近Opus4.6的特性:2分钟理解项目、9分钟制定14步开发计划、5分钟完成代码修改,总耗时仅14分钟,消耗600万Tokens。相比GLM-5,Turbo在业务理解深度、开发完整性方面表现更优,成功实现了角色管理系统升级,解决了GLM-5存在的显示BUG。虽然头像上传功能存在小问题,但整体完成度更高,特别是在隐藏考点处理上表现出色。测试表明Turbo在宏观把控和流程优

2026-03-27 15:34:11 451

原创 手搓 CodingPlan 照妖镜,TOKEN 燃烧器!

本文介绍了一款名为CodingPlanTest的全栈测试工具,用于对比主流AI编程服务的性能表现。作者集成了火山方舟、阿里百炼、腾讯混元等8个平台API,开发了批量测试、群聊、对战等核心功能:1)支持多模型并行测试与直观对比;2)提供广播/接力两种群聊模式;3)内置五子棋/象棋AI对战系统;4)完整记录测试历史数据。测试发现Claude系列表现突出,而国产模型在复杂任务中稳定性不足。工具已开源基础版本,作者正考虑增加Agent功能并优化Token消耗方案。

2026-03-26 22:17:06 700

原创 很好玩!OpenClaw控制网易云听歌!

网易云音乐推出命令行工具CLI,支持通过自然语言控制音乐播放。该工具基于网易云API开发,提供搜索歌曲、播放控制、歌单管理等功能,并支持TUI播放器界面。用户需先安装CLI工具并配置API密钥,然后可通过OpenClaw或ClaudeCode等AI工具用自然语言指令操作音乐播放。虽然部分AI集成存在兼容问题,但该工具为程序员和AI用户提供了新颖的音乐控制方式,展现了从GUI向CLI和AI接口转变的技术趋势。

2026-03-24 23:09:05 593

原创 手搓CCSwitch高定版,一键切换六大CodingPlan

我一口气买了 6 家的 Coding Plan,还充了小米的 API ,还有一些其他的。在使用过程中遇到的最大问题是如何充分使用和快速切换。我之前的方案是直接使用 CCSwitch:有了这个工具之后,使用起来就方便多了。只要提前配置好 API,点击启用,就可以切换了。但是有几个点我不是很满意:启动还是不够便捷切换注入可能出错密钥保存不够安全所以,就自己手搓了一个版本:目前 Logo 还没设计,名字叫 Jcode(Jarvis 的编程工具),做的非常简洁,没有任何多余的功能。

2026-03-23 20:03:23 635

原创 8大AI平台速度和token消耗测试,小米MiMo也加上!

首字延迟(越小越好)阿里云百炼(qwen3.5-plus)在多个场景中首字延迟最快,普遍在 800 ms~1 s 级别;智谱 GLM、腾讯云、Kimi 也稳定在 1~1.5 s;火山方舟和 MiniMax 表现较差,首字延迟经常排在末尾(5~15 s 级别)。总耗时(越小越好)Kimi 在简单/中等任务中总耗时最优(1.1 s~6.3 s);复杂任务下 OpenRouter (Claude Opus) 反而耗时最短(17.8 s);

2026-03-21 13:09:59 991

原创 用完火山,腾讯,阿里的编程模型,我失眠了!

本文对比测试了阿里百炼、火山方舟和腾讯混元三个大模型在编程任务中的表现。作者基于同一个项目,使用相同提示词让三个模型分别进行功能升级开发。测试结果显示:三个模型都未能完全实现需求,存在不同程度的Bug,其中腾讯模型表现稍好但仍有功能缺失。作者详细记录了测试过程,包括模型响应时间(火山最快)、资源消耗情况(火山消耗最大),并分析了各模型代码中的具体问题。测试结果表明当前这些模型在复杂编程任务中的表现仍不尽如人意,存在较大改进空间。

2026-03-18 15:28:30 764

原创 巅峰对决:Opus4.6又赢了,GPT5.4还差点意思!

文章摘要:本文对比了Opus4.6和GPT5.4在编程实战中的表现。作者通过一个CodingPlan测试平台的升级需求进行测试,发现GPT5.4能完成功能开发但存在三个问题:头像上传体验不佳、角色平台互斥未实现、冗余选项未删除。相比之下,Opus4.6表现更全面,会主动询问关键需求。作者认为GPT系列实力不俗但存在"爹味"太重的问题,在编程方面上限有限。最终评价Opus4.6更胜一筹,并提供了测试代码仓库地址供读者验证。

2026-03-17 22:55:20 489

原创 我超!Claude真是强到变态!

摘要:用户与ClaudeDesktop交流时,本想咨询技术方案,结果AI直接生成了完整的token测试工具。该工具可跨平台测试5小时内的token配额上限,包含UI界面和完整功能。用户使用时遇到跨域问题,AI立即调整为可下载的HTML方案并测试成功。这种"想法即实现"的交互体验展现了AI强大的生产力,尤其对非专业人士工作效率提升显著。虽然技术原理易懂,但无需调试即能使用的丝滑感令人震撼,标志着AI应用的新高度。

2026-03-17 12:29:41 265

原创 六大Coding Plan 速度和tokens消耗测试!

摘要:本文对6家主流AI平台的CodingPlan进行了实测对比,主要测试响应速度、token消耗和逻辑推理能力。通过"早安问候"、"帽子逻辑题"和"竹竿空间题"三个测试场景发现:Kimi速度最快但存在答错情况;火山方舟最省token且准确;智谱GLM5表现最稳定。测试显示不同时段性能存在波动,部分平台存在协议限制问题。作者还开发了五子棋和中国象棋对战功能作为彩蛋展示。测试结果为用户选择AI服务提供了实用参考。(149字)

2026-03-16 21:41:36 1813 1

原创 MiniMax和kimi都是人才,“吊打”Opus4.6

本文实测对比了国产AI模型Kimi和MiniMax在开发场景中的表现。测试结果显示,MiniMax启动即报错500,完全无法使用;Kimi虽能启动但核心功能存在严重bug。与Claude Opus4.6的完美表现形成鲜明对比,后者不仅能正确实现需求,还会主动提出关键问题并分步验证。作者指出这些国产模型官方宣传的SOTA(最优表现)与实际能力严重不符,开发过程中存在大量基础错误,最终结论认为Claude Opus4.6在实战中碾压所有对手,是当前最可靠的开发辅助AI工具。

2026-03-14 21:27:11 517

原创 GLM5实战测试,挑战Opus4.6 !

摘要:本文对国产大模型智谱GLM5进行深度评测,基于真实AI群聊开发场景设计测试。结果显示GLM5在基础功能实现上表现良好,核心功能均可正常运行,部分交互设计甚至优于Claude Opus4.6。但在细节处理、全局思考能力方面存在明显不足,如错误修改非目标功能、显示逻辑缺陷、未能识别冗余配置等问题。通过与Opus4.6的对比分析,发现GLM5在需求理解深度、开发计划完整性和问题预见性等方面仍有差距,最终完成度约80-90%,属于"中级工程师"水平。评测采用"能否用-好用否-全面

2026-03-13 21:55:12 609

原创 Claude Opus4.6 实战记录,欢迎对标和超越!

国产AI模型宣传效果与实际表现存在显著差距。作者通过开发测试平台对国产模型进行实战检验,发现其表现远不如宣传。以群聊功能升级为例,Opus4.6展现了出色的需求理解、方案设计和编码能力,而国产模型在类似任务中表现欠佳。测试显示Opus4.6能精准把握需求细节,提出关键问题,并提供完整解决方案,编译一次通过。相比之下,国产模型虽宣传对标Opus,但实际开发能力仍有明显差距。这反映出当前AI领域存在宣传泡沫,真正有价值的仍是专业的技术积累和实战表现。

2026-03-12 11:32:09 530

原创 Claude Code:一边蹲坑一边手机写代码!

《ClaudeCode远程控制功能体验分享》摘要:本文详细介绍了ClaudeCode最新推出的远程控制功能。该功能允许用户通过任意设备(手机/平板/其他电脑)远程访问本地运行的ClaudeCode会话,所有计算在本地完成,数据不上传云端。文章分享了具体使用方法:需升级到v2.1.63版本后,通过命令启动远程控制,生成访问链接或二维码实现多端同步。作者实测了Windows系统的兼容性问题及手机端连接技巧,最终成功实现全链路远程开发体验。该功能特别适合需要随时继续开发工作的场景,相比第三方工具具有更好的同步效果

2026-03-11 20:35:40 621

原创 完整体验一下腾讯云的CodingPlan

本文详细评测了腾讯云CodingPlan AI编程服务。作者购买了国内主流AI编程服务进行比较,重点体验了腾讯云7.9元/月的套餐,支持多种大模型和编程工具。测试发现腾讯云混元模型能生成详细开发计划,但在自家CodeBuddy工具中出现频繁报错;而通过OpenClaw和ClaudeCode接入后,使用tc-code-latest模型仅14分钟就完成了React博客开发。评测显示不同工具间性能差异明显,可能是服务初期稳定性问题。作者计划后续对各平台进行更深入对比测试。

2026-03-11 16:16:16 3012 1

原创 Claude Code:把“智商”拉到最高!

摘要:Claude模型引入了EffortLevel(思考等级)机制,通过系统参数控制模型的推理强度。该功能提供Low/Medium/High/Max四个等级,分别对应不同复杂度的任务需求。用户可通过CLI交互、配置文件或API三种方式调整等级。最新版本Claude 4.6系列已将默认等级从High调整为Medium,这可能影响用户体验。建议根据任务复杂度选择合适的思考等级,复杂任务建议使用Max等级以获得最佳推理效果。该功能将prompt工程转化为更稳定的参数化控制,提升了模型性能的可预测性和成本管理能力。

2026-03-10 22:14:19 583

原创 全TM辣鸡,最后还得Claude Opus搽屁股!

摘要:开发者在使用Claude开发AI群聊功能时遭遇一系列低级错误,发现代码被改得乱七八糟。经过排查,惊觉自己实际使用的是第三方模型而非Claude,导致功能异常。切换回正版Claude后问题迅速解决,验证了Claude与国产模型在深度思考能力上的显著差距。此次经历凸显了选择优质AI工具的重要性,开发者最终成功实现了包含多个AI模型的群聊功能,各AI能流畅讨论天气、客服、游戏等话题。

2026-03-09 12:22:29 331

原创 烤一烤 Qwen3.5 和豆包 Seed2 的编程能力!

摘要:作者对阿里百炼Qwen3.5和火山豆包Seed2两款国产编程AI进行了9项专业测试,涵盖CSS绘画、Python烟花动画、五子棋AI、跑酷游戏等场景。测试发现Qwen3.5在五子棋项目表现突出,但存在较多不稳定情况;Seed2整体更稳定但缺乏亮点。有趣的是,两个平台的Kimi模型都自称是Claude,暗示可能使用开源版本。测试采用自建平台和官方IDE对比,结果显示同一模型在不同环境表现存在差异。完整测试结果已发布在topai.tonyhub.xyz。

2026-03-06 22:26:35 477

原创 Qwen3.5 在Ollama API中关闭思考模式!

本文介绍了通过API方式关闭Qwen3.5等开源模型思考功能的方法。作者指出,虽然AI常建议使用OpenAI兼容模式代码,但实测发现只有Ollama原生协议才能真正关闭思考功能。关键要点是:1)必须使用原生API接口地址;2)参数中需设置"think":False。实测9B模型关闭思考后速度显著提升。该方法不仅适用于Qwen3.5,也适用于GLM4.7Flash等开源模型。文章提供了完整的Python实现代码,包括错误处理和流式响应处理。

2026-03-06 13:36:41 3015

原创 玩一下7.9元的阿里CodingPlan !

我发现现在有两群人:一群人一直在追求顶尖模型,一群人在想如何低门槛先入个门。而后者的数量巨大,尤其是最近 OpenClaw 火了之后。字节和阿里都抓住了这个需求。之前介绍过字节搞了一个 9.9 上手的编程套餐。没想到阿里更狠,7.9 元起步,而且还写着续费 5 折!我看了一下他们的定位和介绍,真的是全方位对标。目前两个平台都是只提供了 Lite 和 Pro 版本,正常价格都是 40 元一月/Lite,200 元一/Pro。

2026-03-05 22:10:18 1093

原创 免费体验阿里小龙虾Copaw!比OpenClaw可简单多了

今天想着开通一个阿里百练的 Coding Plan,没想到刷新了一下网页,优惠没了,气死个人!然后发现阿里也搞了一个定制版的 OpenClaw,名字叫 CoPaw。这是他们首推的 Coding Plan 的应用场景!优惠券还要等 3 个小时才刷新,我就用这个时间来玩一玩 CoPaw。最终效果:开始之前,先来看看它有什么与众不同之处。它有一个官网,网址是:从介绍可知,这是一个开源的工具,可以本地也可以云端运行。

2026-03-04 23:00:05 2875

原创 0.01元升级GLM Pro,再测一把GLM5!

GLM 4.7 的时候,给他需求之后,它没有问我任何问题,就自己开始做方案了,导致有些地方不是很满意。另外,我已经把Claude,Gemin3.1Pro,Codex5.3,GLM5 这些比较能看的软件,全部放到网盘里里面了。Opus4.6唯一一个自己设计了主题的模型,刚开始很简约,现在已经在我的强迫下,增加了一堆功能。国外这几家,整体来说第一个版本就已经比较完善了,但是最终效果,也是有我的功劳,我懂了嘴,提出了改进要求。做一个倒计时关闭游戏的工具,我和小孩子约定了,每天一起玩游戏,但是常常忘了时间,或者。

2026-03-03 23:05:54 385

原创 Claude自然语言编程,设计,开发,升级全过程!

虽然这篇文章可能没有流量,但是我真的很想写。因为这开发体验实在是太好了。当你有一个想法,你只要用几十个字去描述想法。然后剩下的全部交给 AI。这并不是痴人说梦,也不是卖课引流,而是我真实的体验。下面我就完整的分享一下我的实现过程。只要工具用的好,我觉得人人都能做到。当前这一切也有一些隐形的门槛。

2026-03-02 20:02:08 809

原创 Qwen3.5和GLM4.7Flash疯狂提速,Ollama关闭思考的两种方式!

Qwen3.5开源模型性能强大但思考过程过长影响使用体验。文章介绍了在Ollama中关闭模型思考功能的两种方法:1)启动时添加--think=false参数;2)对话中使用/setnothink命令实时切换。虽然创建自定义Modelfile的方式未达预期,但前两种方法已能有效提升响应速度。Ollama从2025年中期开始支持这一功能,适用于各类具有思考能力的模型,显著改善了交互效率。

2026-03-02 12:29:39 2385

原创 Claude Code 神一般的存在,继续吊打同行!

本文详细对比测试了Opus4.6、GPT-5.3-Codex等6个AI模型在网页抓取、数据分析及网页生成方面的表现。测试结果显示,Opus4.6凭借自动调用浏览器截图分析、完整验证流程等优势脱颖而出,其生成的报告数据详实、网页设计专业,且能准确执行指令要求。相比之下,其他模型在数据获取、指令遵循或网页设计等方面存在明显不足。特别指出Opus4.6在编程能力、推理等核心维度均处于顶尖水平,验证了其在实际应用中的卓越性能。测试结果已上传至指定网站供参考。

2026-02-27 21:00:48 994

原创 开发实战:MiniMax开发Windows C#应用!是骡子是马?

摘要: Anthropic报告指控国产模型MiniMax通过1300万次交互"蒸馏"Claude模型,引发争议。测试显示,MiniMax在开发游戏倒计时工具时表现一般:UI设计粗糙,功能基本可用但体验较差,与Claude Opus 4.6存在明显差距。尽管基准测试分数接近,实际开发中MiniMax需多次纠错,最终成果远逊于Claude。作者认为国产模型虽有不足,但应给予进步空间,并调侃"蒸馏"行为在业内普遍存在。文末附MiniMax订阅链接,呼吁支持国产AI发展。

2026-02-26 21:15:49 1086

原创 Codex5.3 无情嘲笑国产AI都是PPT高手!

过年的时候非常热闹,Kimi,GLM,Minimax都在对标Claude Opus模型。OpenAI的Codex5.3感觉被冷落了,开启无情的吐槽模式。

2026-02-25 22:19:56 1447

原创 Gemini3.1 实测了9个例子,结果不太理想!

本文主要讨论了谷歌Gemini3.1Pro模型的表现测试结果。作者通过9个编程实例测试发现,该模型存在明显的低级错误、运行速度慢、逻辑能力较弱等问题,约半数案例出现明显错误。虽然在某些创意性任务中表现尚可,但整体稳定性差,工作效率低,不适合实际开发工作。相比之下,Claude和GPT系列模型表现更优。文章还提到国产AI模型可能存在数据同质化问题,并质疑其训练数据来源。测试结论表明,目前Claude4.5+和GPT5.2+仍是更实用的AI工具。

2026-02-24 22:31:45 1014

原创 Minimax直接对标Opus 4.6了, 实力还是吹牛逼?

国产AI模型MiniMax M2.5与Claude 4.6横向测评 摘要:本文对国产AI模型MiniMax M2.5与Claude 4.6进行了多维度横向对比测试。通过5个创意编程挑战(包括文字冒险游戏、五子棋对战、赛博朋克清明上河图等)发现:Claude 4.6表现稳定,功能完整且具备审美能力;MiniMax M2.5虽完成基本功能,但存在代码错误、指令遵循不彻底等问题。测试显示国产模型在编程和智能体领域仍需提升,特别是状态管理、逻辑连贯性和审美表现方面。作者将持续对主流AI模型进行专业测评,帮助用户选择

2026-02-23 23:01:06 937

原创 Pi Agent SDK:驱动 OpenClaw 狂揽 18 万 Star 的极简主义引擎

OpenClaw持续火爆,其内核PiAgentSDK以极简主义颠覆AI开发框架。仅提供read、write、edit、bash四个基础工具,却覆盖99%编程场景,遵循"少即是多"的Unix哲学。这种设计让AI能自主组合工具解决问题,支持多模型无缝切换,开发者无需编码即可扩展功能。PiAgentSDK不仅赋能OpenClaw,更让普通开发者快速构建智能助手,重新定义了AI开发方式。

2026-02-23 10:31:47 771

原创 Claude4.6还是牛,给GLM5出了10个“毒题”!

摘要:Claude 4.6与GLM5展开AI对决,Claude在专业领域设计了5道高难度"毒题",包括TypeScript状态机、分布式系统设计、自指Prompt工程、并发Bug修复和CSS分形艺术,展示其技术深度。随后又提出5个视觉化娱乐挑战,如纯CSS山水画、单文件跑酷游戏等。在CSS山水画测试中,Claude的作品在意境、细节和审美上明显优于GLM5。虽然GLM5声称接近Claude 4.5水平,但实际测试显示Claude仍保持全面优势。有趣的是,GLM5在回答中曾出现"

2026-02-13 19:56:55 745

原创 GLM5带10个题目挑战Claude4.6编程宝座 !

摘要:GLM-5正式发布,专注编程与智能体领域,直接对标Claude Opus 4.6。模型参数从355B增至744B,预训练数据从23T扩展到28.5T token。在自动售货机基准测试中,GLM-5在开源模型中排名第一,接近Claude Opus 4.5水平。文章通过让GLM-5出题PK Claude的方式,展示了5个极具挑战性的专业题目,涵盖代码重构、自动驾驶开发、供应链分析等硬核领域。后续又调整为5个可视化挑战题(如赛博朋克版《清明上河图》HTML实现),通过实际测试对比了两者的表现。测试显示Cla

2026-02-12 21:36:04 1046

原创 开发“360安全卫士”,Opus4.6把GPT5.3吊起来打了?!

本文对比了GPT-5.3和Opus4.6两款AI在开发"中老年电脑管家"任务中的表现。GPT-5.3用时4分钟完成开发,采用Tkinter界面,功能简单但实用性较差;Opus4.6耗时16分钟,选择Web方案,界面美观,功能完整且包含60项测试用例。测试显示Opus4.6在功能完整性、测试覆盖率和用户体验方面明显优于GPT-5.3,但消耗资源更多。文章还发现AI在Web开发表现优异,但在系统级开发时容易陷入困境,不过Opus4.6展现出更强的自我纠错能力。本次测试仅反映部分能力对比。

2026-02-08 11:23:26 1008

原创 手机写代码搞起来!HappyCode控制Claude Code!

一直坐在电脑前写代码实在太无趣了,一边蹲坑一边用手机写代码,这才叫享受😎!今天来分享一个用手机写代码的 APP——Happy。严格来说,不光手机,而是所有设备都可以。最终落地部分是 Claude Code,现在也支持 Codex。Happy 是一个开源项目,目前已经 ⭐ 10.5k 星标。Happy Coder 是一个移动端和 Web 客户端,允许用户在任何地方使用 Claude Code 和 Codex 服务,具有端到端加密功能。📱:提供 iOS 应用、Android 应用和 Web 应用🔔。

2026-02-07 21:12:32 981

原创 第一轮:Opus4.6似乎碾压Codex 5.3了

AI编程和智能体领域两大模型GPT-5.3-Codex和Opus4.6同日更新,引发专业领域关注。测试显示两者在信息检索和报告撰写能力上存在显著差异:ClaudeCode表现更专业详尽,能自动分类整理12个来源,报告结构清晰;而Codex仅抓取4个来源,报告更简略且风格"油腻"。尤其在模型特点对比、用户口碑汇总等关键环节,ClaudeCode能提供更全面的分析,包括新增的"正面交锋"对比栏。虽然两者都准确找到了官方公告,但ClaudeCode的15条引用远超Codex

2026-02-06 19:52:52 499

原创 Claude Opus 4.6 vs GPT-5.3-Codex 同日发布深度整理

AI编程领域迎来"神仙打架":Claude Opus 4.6与GPT-5.3-Codex同日发布。Opus 4.6带来百万token上下文窗口和AgentTeams协作功能,在金融分析、安全漏洞发现等专业领域表现突出;GPT-5.3-Codex则实现AI自主构建能力,可8小时无人干预完成端到端开发,但引发网络安全风险担忧。实测显示Opus在复杂项目和多学科推理更优,Codex则在自主编码和电脑操作能力领先。专家指出两大模型正在趋同发展,标志着AI编程能力的新高度,同时也引发了关于AI取代

2026-02-06 10:45:11 1013

原创 打开 OpenClaw云端控制台,切换Kimi提速!

摘要:本文介绍了如何解决OpenClaw部署在腾讯云上的两个问题:1)通过SSH通道访问云端控制台,使用ssh -N -L 18789:127.0.0.1:18789命令建立本地连接;2)将默认模型从GLM4.7更换为更快的Kimi K2.5模型,详细说明了获取API key和配置流程。通过这两项优化,实现了对机器人的可视化管理和响应速度的显著提升,使云端QQ机器人运行更高效。文章还提到OpenClaw最新支持飞书集成和记忆优化功能。

2026-02-05 22:33:46 2080

原创 Kimi成小甜甜,GLM变牛夫人,Claude又要被超越?!

我第一次听过,要超过 Claude 的模型是 GLM-4.7。最近 Kimi k2.5 发布之后,又有人说 Kimi 比 Claude 好用了。我本不以为然,但是有两个数据让我想认真对待这个模型了。一个是 OpenClaw 的数据:数据显示,在龙虾中用的最多的是 Kimi k2.5。另一个是 OpenRouter 推特:他也说了 Kimi k2.5 是 OpenClaw 上最流行的模型。这让我的好奇心爆表,我很想看一下,这个火爆的模型强在哪里?昨天抽空测了一遍,过程还挺起伏的。

2026-02-05 22:29:45 1547

原创 上手Codex独立应用,双倍配额任你造!

OpenAI最新推出的CodexApp将AI编程工具提升到新高度,通过独立应用程序形式提供更专业的开发体验。该应用整合了GPT-5.2和Codex模型,支持版本管理、自动化任务和自定义技能等功能。其界面设计简洁高效,允许开发者同时进行编码对话和程序运行。特别值得注意的是,OpenAI为推广该产品大幅提升了用户配额,免费用户也能获得良好体验。虽然运行速度稍慢,但其强大的功能布局和充足的资源配额,使其成为当前最值得尝试的AI编程工具之一,可能开创编程辅助工具的新范式。

2026-02-05 12:46:29 1456

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除