jarvisuni-CSDN博客

原创所有Github Copilot用户请注意，事关隐私安全！

这是一次典型的"默认开启、主动退出"政策变更，意味着如果你不主动操作，你的使用数据就会被用于 AI 训练。对于个人开发者（Free/Pro/Pro+），如果介意自己的代码或工作流被用于训练，应当尽快前往设置页面手动关闭。

2026-03-29 15:43:36 36

原创来看看GLM5.1到底升级了什么！

当时 GLM-5 出现的问题是逻辑正常，但是 UI 显示的名称不对，应该显示角色，却显示了平台。，这个 benchmark 是智谱自己发布的，且用的是 Claude Code 框架评测，有一定的宣传性质，实际体验还需结合你在 JCode 里的实测数据来判断。Turbo 的话，解读问题和规划阶段明显更加完善，所以考虑到了隐藏考点，升级的时候，优化了冗余的问题。只是默认头像的逻辑还有一点问题，正常来说，如果我没有设置头像，它就应该像是平台的默认头像。我的直观感受是，它们在询问关键点的时候，还是一样地含糊不清。

2026-03-29 09:45:41 544

原创 GLM-5-Turbo有点东西！甚至略胜GLM5

GLM-5-Turbo全量开放测试报告摘要：GLM-5-Turbo已全量开放，实测显示其性能显著提升。在编程场景测试中，Turbo展现出接近Opus4.6的特性：2分钟理解项目、9分钟制定14步开发计划、5分钟完成代码修改，总耗时仅14分钟，消耗600万Tokens。相比GLM-5，Turbo在业务理解深度、开发完整性方面表现更优，成功实现了角色管理系统升级，解决了GLM-5存在的显示BUG。虽然头像上传功能存在小问题，但整体完成度更高，特别是在隐藏考点处理上表现出色。测试表明Turbo在宏观把控和流程优

2026-03-27 15:34:11 451

原创手搓 CodingPlan 照妖镜，TOKEN 燃烧器！

本文介绍了一款名为CodingPlanTest的全栈测试工具，用于对比主流AI编程服务的性能表现。作者集成了火山方舟、阿里百炼、腾讯混元等8个平台API，开发了批量测试、群聊、对战等核心功能：1）支持多模型并行测试与直观对比；2）提供广播/接力两种群聊模式；3）内置五子棋/象棋AI对战系统；4）完整记录测试历史数据。测试发现Claude系列表现突出，而国产模型在复杂任务中稳定性不足。工具已开源基础版本，作者正考虑增加Agent功能并优化Token消耗方案。

2026-03-26 22:17:06 700

原创很好玩！OpenClaw控制网易云听歌！

网易云音乐推出命令行工具CLI，支持通过自然语言控制音乐播放。该工具基于网易云API开发，提供搜索歌曲、播放控制、歌单管理等功能，并支持TUI播放器界面。用户需先安装CLI工具并配置API密钥，然后可通过OpenClaw或ClaudeCode等AI工具用自然语言指令操作音乐播放。虽然部分AI集成存在兼容问题，但该工具为程序员和AI用户提供了新颖的音乐控制方式，展现了从GUI向CLI和AI接口转变的技术趋势。

2026-03-24 23:09:05 593

原创手搓CCSwitch高定版，一键切换六大CodingPlan

我一口气买了 6 家的 Coding Plan，还充了小米的 API ，还有一些其他的。在使用过程中遇到的最大问题是如何充分使用和快速切换。我之前的方案是直接使用 CCSwitch：有了这个工具之后，使用起来就方便多了。只要提前配置好 API，点击启用，就可以切换了。但是有几个点我不是很满意：启动还是不够便捷切换注入可能出错密钥保存不够安全所以，就自己手搓了一个版本：目前 Logo 还没设计，名字叫 Jcode（Jarvis 的编程工具），做的非常简洁，没有任何多余的功能。

2026-03-23 20:03:23 635

原创 8大AI平台速度和token消耗测试,小米MiMo也加上！

首字延迟（越小越好）阿里云百炼（qwen3.5-plus）在多个场景中首字延迟最快，普遍在 800 ms～1 s 级别；智谱 GLM、腾讯云、Kimi 也稳定在 1～1.5 s；火山方舟和 MiniMax 表现较差，首字延迟经常排在末尾（5～15 s 级别）。总耗时（越小越好）Kimi 在简单/中等任务中总耗时最优（1.1 s～6.3 s）；复杂任务下 OpenRouter (Claude Opus) 反而耗时最短（17.8 s）；

2026-03-21 13:09:59 991

原创用完火山，腾讯，阿里的编程模型，我失眠了！

本文对比测试了阿里百炼、火山方舟和腾讯混元三个大模型在编程任务中的表现。作者基于同一个项目，使用相同提示词让三个模型分别进行功能升级开发。测试结果显示：三个模型都未能完全实现需求，存在不同程度的Bug，其中腾讯模型表现稍好但仍有功能缺失。作者详细记录了测试过程，包括模型响应时间（火山最快）、资源消耗情况（火山消耗最大），并分析了各模型代码中的具体问题。测试结果表明当前这些模型在复杂编程任务中的表现仍不尽如人意，存在较大改进空间。

2026-03-18 15:28:30 764

原创巅峰对决：Opus4.6又赢了，GPT5.4还差点意思！

文章摘要：本文对比了Opus4.6和GPT5.4在编程实战中的表现。作者通过一个CodingPlan测试平台的升级需求进行测试，发现GPT5.4能完成功能开发但存在三个问题：头像上传体验不佳、角色平台互斥未实现、冗余选项未删除。相比之下，Opus4.6表现更全面，会主动询问关键需求。作者认为GPT系列实力不俗但存在"爹味"太重的问题，在编程方面上限有限。最终评价Opus4.6更胜一筹，并提供了测试代码仓库地址供读者验证。

2026-03-17 22:55:20 489

原创我超！Claude真是强到变态！

摘要：用户与ClaudeDesktop交流时，本想咨询技术方案，结果AI直接生成了完整的token测试工具。该工具可跨平台测试5小时内的token配额上限，包含UI界面和完整功能。用户使用时遇到跨域问题，AI立即调整为可下载的HTML方案并测试成功。这种"想法即实现"的交互体验展现了AI强大的生产力，尤其对非专业人士工作效率提升显著。虽然技术原理易懂，但无需调试即能使用的丝滑感令人震撼，标志着AI应用的新高度。

2026-03-17 12:29:41 265

原创六大Coding Plan 速度和tokens消耗测试！

摘要：本文对6家主流AI平台的CodingPlan进行了实测对比，主要测试响应速度、token消耗和逻辑推理能力。通过"早安问候"、"帽子逻辑题"和"竹竿空间题"三个测试场景发现：Kimi速度最快但存在答错情况；火山方舟最省token且准确；智谱GLM5表现最稳定。测试显示不同时段性能存在波动，部分平台存在协议限制问题。作者还开发了五子棋和中国象棋对战功能作为彩蛋展示。测试结果为用户选择AI服务提供了实用参考。（149字）

2026-03-16 21:41:36 1813 1

原创 MiniMax和kimi都是人才，“吊打”Opus4.6

本文实测对比了国产AI模型Kimi和MiniMax在开发场景中的表现。测试结果显示，MiniMax启动即报错500，完全无法使用；Kimi虽能启动但核心功能存在严重bug。与Claude Opus4.6的完美表现形成鲜明对比，后者不仅能正确实现需求，还会主动提出关键问题并分步验证。作者指出这些国产模型官方宣传的SOTA（最优表现）与实际能力严重不符，开发过程中存在大量基础错误，最终结论认为Claude Opus4.6在实战中碾压所有对手，是当前最可靠的开发辅助AI工具。

2026-03-14 21:27:11 517

原创 GLM5实战测试，挑战Opus4.6 ！

摘要：本文对国产大模型智谱GLM5进行深度评测，基于真实AI群聊开发场景设计测试。结果显示GLM5在基础功能实现上表现良好，核心功能均可正常运行，部分交互设计甚至优于Claude Opus4.6。但在细节处理、全局思考能力方面存在明显不足，如错误修改非目标功能、显示逻辑缺陷、未能识别冗余配置等问题。通过与Opus4.6的对比分析，发现GLM5在需求理解深度、开发计划完整性和问题预见性等方面仍有差距，最终完成度约80-90%，属于"中级工程师"水平。评测采用"能否用-好用否-全面

2026-03-13 21:55:12 609

原创 Claude Opus4.6 实战记录，欢迎对标和超越！

国产AI模型宣传效果与实际表现存在显著差距。作者通过开发测试平台对国产模型进行实战检验，发现其表现远不如宣传。以群聊功能升级为例，Opus4.6展现了出色的需求理解、方案设计和编码能力，而国产模型在类似任务中表现欠佳。测试显示Opus4.6能精准把握需求细节，提出关键问题，并提供完整解决方案，编译一次通过。相比之下，国产模型虽宣传对标Opus，但实际开发能力仍有明显差距。这反映出当前AI领域存在宣传泡沫，真正有价值的仍是专业的技术积累和实战表现。

2026-03-12 11:32:09 530

原创 Claude Code：一边蹲坑一边手机写代码！

《ClaudeCode远程控制功能体验分享》摘要：本文详细介绍了ClaudeCode最新推出的远程控制功能。该功能允许用户通过任意设备（手机/平板/其他电脑）远程访问本地运行的ClaudeCode会话，所有计算在本地完成，数据不上传云端。文章分享了具体使用方法：需升级到v2.1.63版本后，通过命令启动远程控制，生成访问链接或二维码实现多端同步。作者实测了Windows系统的兼容性问题及手机端连接技巧，最终成功实现全链路远程开发体验。该功能特别适合需要随时继续开发工作的场景，相比第三方工具具有更好的同步效果

2026-03-11 20:35:40 621

原创完整体验一下腾讯云的CodingPlan

本文详细评测了腾讯云CodingPlan AI编程服务。作者购买了国内主流AI编程服务进行比较，重点体验了腾讯云7.9元/月的套餐，支持多种大模型和编程工具。测试发现腾讯云混元模型能生成详细开发计划，但在自家CodeBuddy工具中出现频繁报错；而通过OpenClaw和ClaudeCode接入后，使用tc-code-latest模型仅14分钟就完成了React博客开发。评测显示不同工具间性能差异明显，可能是服务初期稳定性问题。作者计划后续对各平台进行更深入对比测试。

2026-03-11 16:16:16 3012 1

原创 Claude Code：把“智商”拉到最高！

摘要：Claude模型引入了EffortLevel（思考等级）机制，通过系统参数控制模型的推理强度。该功能提供Low/Medium/High/Max四个等级，分别对应不同复杂度的任务需求。用户可通过CLI交互、配置文件或API三种方式调整等级。最新版本Claude 4.6系列已将默认等级从High调整为Medium，这可能影响用户体验。建议根据任务复杂度选择合适的思考等级，复杂任务建议使用Max等级以获得最佳推理效果。该功能将prompt工程转化为更稳定的参数化控制，提升了模型性能的可预测性和成本管理能力。

2026-03-10 22:14:19 583

原创全TM辣鸡，最后还得Claude Opus搽屁股！

摘要：开发者在使用Claude开发AI群聊功能时遭遇一系列低级错误，发现代码被改得乱七八糟。经过排查，惊觉自己实际使用的是第三方模型而非Claude，导致功能异常。切换回正版Claude后问题迅速解决，验证了Claude与国产模型在深度思考能力上的显著差距。此次经历凸显了选择优质AI工具的重要性，开发者最终成功实现了包含多个AI模型的群聊功能，各AI能流畅讨论天气、客服、游戏等话题。

2026-03-09 12:22:29 331

原创烤一烤 Qwen3.5 和豆包 Seed2 的编程能力！

摘要：作者对阿里百炼Qwen3.5和火山豆包Seed2两款国产编程AI进行了9项专业测试，涵盖CSS绘画、Python烟花动画、五子棋AI、跑酷游戏等场景。测试发现Qwen3.5在五子棋项目表现突出，但存在较多不稳定情况；Seed2整体更稳定但缺乏亮点。有趣的是，两个平台的Kimi模型都自称是Claude，暗示可能使用开源版本。测试采用自建平台和官方IDE对比，结果显示同一模型在不同环境表现存在差异。完整测试结果已发布在topai.tonyhub.xyz。

2026-03-06 22:26:35 477

原创 Qwen3.5 在Ollama API中关闭思考模式！

本文介绍了通过API方式关闭Qwen3.5等开源模型思考功能的方法。作者指出，虽然AI常建议使用OpenAI兼容模式代码，但实测发现只有Ollama原生协议才能真正关闭思考功能。关键要点是：1）必须使用原生API接口地址；2）参数中需设置"think":False。实测9B模型关闭思考后速度显著提升。该方法不仅适用于Qwen3.5，也适用于GLM4.7Flash等开源模型。文章提供了完整的Python实现代码，包括错误处理和流式响应处理。

2026-03-06 13:36:41 3015

原创玩一下7.9元的阿里CodingPlan ！

我发现现在有两群人：一群人一直在追求顶尖模型，一群人在想如何低门槛先入个门。而后者的数量巨大，尤其是最近 OpenClaw 火了之后。字节和阿里都抓住了这个需求。之前介绍过字节搞了一个 9.9 上手的编程套餐。没想到阿里更狠，7.9 元起步，而且还写着续费 5 折！我看了一下他们的定位和介绍，真的是全方位对标。目前两个平台都是只提供了 Lite 和 Pro 版本，正常价格都是 40 元一月/Lite，200 元一/Pro。

2026-03-05 22:10:18 1093

原创免费体验阿里小龙虾Copaw！比OpenClaw可简单多了

今天想着开通一个阿里百练的 Coding Plan，没想到刷新了一下网页，优惠没了，气死个人！然后发现阿里也搞了一个定制版的 OpenClaw，名字叫 CoPaw。这是他们首推的 Coding Plan 的应用场景！优惠券还要等 3 个小时才刷新，我就用这个时间来玩一玩 CoPaw。最终效果：开始之前，先来看看它有什么与众不同之处。它有一个官网，网址是：从介绍可知，这是一个开源的工具，可以本地也可以云端运行。

2026-03-04 23:00:05 2875

原创 0.01元升级GLM Pro，再测一把GLM5！

GLM 4.7 的时候，给他需求之后，它没有问我任何问题，就自己开始做方案了，导致有些地方不是很满意。另外，我已经把Claude，Gemin3.1Pro，Codex5.3，GLM5 这些比较能看的软件，全部放到网盘里里面了。Opus4.6唯一一个自己设计了主题的模型，刚开始很简约，现在已经在我的强迫下，增加了一堆功能。国外这几家，整体来说第一个版本就已经比较完善了，但是最终效果，也是有我的功劳，我懂了嘴，提出了改进要求。做一个倒计时关闭游戏的工具，我和小孩子约定了，每天一起玩游戏，但是常常忘了时间，或者。

2026-03-03 23:05:54 385

原创 Claude自然语言编程，设计，开发，升级全过程！

虽然这篇文章可能没有流量，但是我真的很想写。因为这开发体验实在是太好了。当你有一个想法，你只要用几十个字去描述想法。然后剩下的全部交给 AI。这并不是痴人说梦，也不是卖课引流，而是我真实的体验。下面我就完整的分享一下我的实现过程。只要工具用的好，我觉得人人都能做到。当前这一切也有一些隐形的门槛。

2026-03-02 20:02:08 809

原创 Qwen3.5和GLM4.7Flash疯狂提速，Ollama关闭思考的两种方式！

Qwen3.5开源模型性能强大但思考过程过长影响使用体验。文章介绍了在Ollama中关闭模型思考功能的两种方法：1)启动时添加--think=false参数；2)对话中使用/setnothink命令实时切换。虽然创建自定义Modelfile的方式未达预期，但前两种方法已能有效提升响应速度。Ollama从2025年中期开始支持这一功能，适用于各类具有思考能力的模型，显著改善了交互效率。

2026-03-02 12:29:39 2385

原创 Claude Code 神一般的存在，继续吊打同行！

本文详细对比测试了Opus4.6、GPT-5.3-Codex等6个AI模型在网页抓取、数据分析及网页生成方面的表现。测试结果显示，Opus4.6凭借自动调用浏览器截图分析、完整验证流程等优势脱颖而出，其生成的报告数据详实、网页设计专业，且能准确执行指令要求。相比之下，其他模型在数据获取、指令遵循或网页设计等方面存在明显不足。特别指出Opus4.6在编程能力、推理等核心维度均处于顶尖水平，验证了其在实际应用中的卓越性能。测试结果已上传至指定网站供参考。

2026-02-27 21:00:48 994

原创开发实战：MiniMax开发Windows C#应用！是骡子是马？

摘要： Anthropic报告指控国产模型MiniMax通过1300万次交互"蒸馏"Claude模型，引发争议。测试显示，MiniMax在开发游戏倒计时工具时表现一般：UI设计粗糙，功能基本可用但体验较差，与Claude Opus 4.6存在明显差距。尽管基准测试分数接近，实际开发中MiniMax需多次纠错，最终成果远逊于Claude。作者认为国产模型虽有不足，但应给予进步空间，并调侃"蒸馏"行为在业内普遍存在。文末附MiniMax订阅链接，呼吁支持国产AI发展。

2026-02-26 21:15:49 1086

原创 Codex5.3 无情嘲笑国产AI都是PPT高手！

过年的时候非常热闹，Kimi，GLM，Minimax都在对标Claude Opus模型。OpenAI的Codex5.3感觉被冷落了，开启无情的吐槽模式。

2026-02-25 22:19:56 1447

原创 Gemini3.1 实测了9个例子，结果不太理想！

本文主要讨论了谷歌Gemini3.1Pro模型的表现测试结果。作者通过9个编程实例测试发现，该模型存在明显的低级错误、运行速度慢、逻辑能力较弱等问题，约半数案例出现明显错误。虽然在某些创意性任务中表现尚可，但整体稳定性差，工作效率低，不适合实际开发工作。相比之下，Claude和GPT系列模型表现更优。文章还提到国产AI模型可能存在数据同质化问题，并质疑其训练数据来源。测试结论表明，目前Claude4.5+和GPT5.2+仍是更实用的AI工具。

2026-02-24 22:31:45 1014

原创 Minimax直接对标Opus 4.6了, 实力还是吹牛逼？

国产AI模型MiniMax M2.5与Claude 4.6横向测评摘要：本文对国产AI模型MiniMax M2.5与Claude 4.6进行了多维度横向对比测试。通过5个创意编程挑战（包括文字冒险游戏、五子棋对战、赛博朋克清明上河图等）发现：Claude 4.6表现稳定，功能完整且具备审美能力；MiniMax M2.5虽完成基本功能，但存在代码错误、指令遵循不彻底等问题。测试显示国产模型在编程和智能体领域仍需提升，特别是状态管理、逻辑连贯性和审美表现方面。作者将持续对主流AI模型进行专业测评，帮助用户选择

2026-02-23 23:01:06 937

原创 Pi Agent SDK：驱动 OpenClaw 狂揽 18 万 Star 的极简主义引擎

OpenClaw持续火爆，其内核PiAgentSDK以极简主义颠覆AI开发框架。仅提供read、write、edit、bash四个基础工具，却覆盖99%编程场景，遵循"少即是多"的Unix哲学。这种设计让AI能自主组合工具解决问题，支持多模型无缝切换，开发者无需编码即可扩展功能。PiAgentSDK不仅赋能OpenClaw，更让普通开发者快速构建智能助手，重新定义了AI开发方式。

2026-02-23 10:31:47 771

原创 Claude4.6还是牛，给GLM5出了10个“毒题”！

摘要：Claude 4.6与GLM5展开AI对决，Claude在专业领域设计了5道高难度"毒题"，包括TypeScript状态机、分布式系统设计、自指Prompt工程、并发Bug修复和CSS分形艺术，展示其技术深度。随后又提出5个视觉化娱乐挑战，如纯CSS山水画、单文件跑酷游戏等。在CSS山水画测试中，Claude的作品在意境、细节和审美上明显优于GLM5。虽然GLM5声称接近Claude 4.5水平，但实际测试显示Claude仍保持全面优势。有趣的是，GLM5在回答中曾出现"

2026-02-13 19:56:55 745

原创 GLM5带10个题目挑战Claude4.6编程宝座 !

摘要：GLM-5正式发布，专注编程与智能体领域，直接对标Claude Opus 4.6。模型参数从355B增至744B，预训练数据从23T扩展到28.5T token。在自动售货机基准测试中，GLM-5在开源模型中排名第一，接近Claude Opus 4.5水平。文章通过让GLM-5出题PK Claude的方式，展示了5个极具挑战性的专业题目，涵盖代码重构、自动驾驶开发、供应链分析等硬核领域。后续又调整为5个可视化挑战题（如赛博朋克版《清明上河图》HTML实现），通过实际测试对比了两者的表现。测试显示Cla

2026-02-12 21:36:04 1046

空空如也

空空如也