自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

testzhouzhou的博客

14年测试老兵,分享前沿AI知识在测试工作中的应用,一边学习一边分享。 会持续分享Hermes、crewAI、agentswarm、agentbench、AI安全、AI性能、评测等

  • 博客(58)
  • 收藏
  • 关注

原创 AI测试智能体(agent)实战:规划→执行→反思:14年测试教你从零手写一个能跑的Agent(附源码自取)

本文分享了从零搭建AI Agent的实战经验。作者通过14年测试经验指出:Agent本质是控制流(规划→执行→反思),而非框架,建议先用Python手写理解核心逻辑。文章详解了Agent四步流程:1)任务拆解与兜底处理;2)拓扑排序执行;3)反思检查机制;4)结果汇总。特别强调三个关键点:业务场景只需改背景和工具列表、必须添加JSON解析兜底、反思机制能显著提升输出质量。文中还揭露了eval()安全隐患等三大坑,并提供调试技巧。最终开源1000行代码实现,证明用基础语法即可构建实用Agent。

2026-05-11 22:19:01 787

原创 【免费福利】AI测试:别再手写pytest了:Markdown spec → 自动生成,30秒搞定API/UI/CI测试

测试老兵周周分享了一套高效自动化测试方案:通过Markdown文件+AI自动生成测试脚本,实现API、UI测试全流程自动化。该系统包含技能文档、本地脚本生成器和CI流水线三部分,支持5种测试类型,30秒即可生成可运行脚本。提供11个开箱即用的模板,并集成GitHub Actions实现代码提交后自动测试。方案结合AI辅助生成和本地模板展开两种方式,显著提升测试效率。作者还分享了完整的技能包,包含测试数据生成、缺陷分析等进阶功能。

2026-05-07 02:02:45 1482 2

原创 【Appium 系列】第08节-pytest 集成 — conftest.py 中的 fixture 与 hook

摘要: conftest.py是pytest的核心配置文件,用于管理测试的公共依赖和生命周期。它支持自动共享fixture(如Appium的session级driver、API客户端)给同级及子目录测试文件,无需显式导入。通过fixture的scope参数(如session/function)控制资源复用频率,结合hook(如pytest_runtest_makereport)实现失败自动截图、日志记录等统一处理。关键设计包括: 资源隔离:driver初始化耗时场景使用session级fixture,结合r

2026-05-15 00:17:01 78 1

原创 【Appium 系列】第07节-API测试封装 — BaseAPI 的设计与实现

Token 过期无感知。测试跑着跑着,某几个接口返回 401,但用例断言的是 200,全部标红。排查半天才发现是 fixture 里 set 的 token 过期了。解决方案:在 fixture 里加 token 过期时间的日志打印,并在 CI 里定期更新 token。超时时间一刀切。默认 30 秒,大部分接口没问题。但文件上传接口和导出接口(生成 PDF/Excel 的那类)慢得多,需要在用例级别单独指定 timeout。所以_request的**kwargs支持透传timeout参数覆盖默认值。

2026-05-15 00:14:58 90

原创 【Appium 系列】第06节-页面对象实现 — LoginPage 实战

本文介绍了移动端自动化测试项目中登录页面(LoginPage)的实现细节。该页面继承BasePage基类,封装了143行代码,主要包含:1)元素定位常量使用元组存储;2)业务操作方法组合基础操作并添加合理等待;3)验证方法捕获所有异常返回布尔值;4)文本获取方法用于断言验证。文章特别强调了日志集成的重要性,并分享了实际项目中遇到的典型问题及解决方案,如元素定位、上下文切换、异常处理等注意事项。

2026-05-15 00:12:44 51

原创 【Appium 系列】第05节-元素定位策略全解 — 从Id、XPath到AccessibilityId

本文详细解析了Appium自动化测试中的7种元素定位方式,包括原理、性能差异和最佳实践。重点推荐accessibility_id作为首选定位方式,因其跨平台兼容性和稳定性;其次是id/resource-id和平台专属定位方式(android_uiautomator/ios_predicate)。文章特别强调xpath应作为最后选择,因其性能差且易失效。配套代码实现了智能降级定位策略find_element_smart,通过优先级顺序尝试不同定位方式。实战案例展示了多级定位策略的应用,并提供了常见问题的解决方

2026-05-15 00:10:13 40

原创 【Appium 系列】第04节-Page Object 模式 — BasePage 基类设计

本文介绍了PageObject模式(POM)在移动端自动化测试中的应用。POM将页面元素和操作封装成类,测试用例只需调用类方法,提高代码复用性和维护性。重点讲解了BasePage的核心设计:1)智能元素定位find_element_smart支持多级降级策略,优先使用稳定的accessibility_id;2)元素查找采用显式等待而非sleep;3)操作间添加适当延迟避免移动端响应问题;4)自动截图辅助定位失败分析。文章还总结了实践中的常见问题,如xpath的脆弱性、等待机制的选择等,强调优先使用acces

2026-05-14 23:46:46 10

原创 【Appium 系列】第03节-驱动初始化 — BaseDriver 的设计与实现

本文介绍了Appium测试中BaseDriver的设计与实现,重点解决driver重复初始化导致的效率问题。核心思路是通过单例模式和session级fixture实现driver复用,避免每个测试用例都重新初始化。BaseDriver类封装了Android和iOS的初始化逻辑:Android端自动检测版本号、跳过已安装组件;iOS端支持Tidevice代理模式。文章还总结了实际开发中遇到的典型问题,如重复安装组件、版本号硬编码等,并提供了优化方案。通过这套设计,测试初始化时间从每次30秒降低到整个会话只需一

2026-05-14 23:45:04 61

原创 【Appium 系列】第02节-环境搭建 — Android + iOS 双平台环境配置

本文详细介绍了Appium自动化测试环境的搭建流程,涵盖Android和iOS双平台配置。主要内容包括:1)Android环境四步配置(JDK、Android SDK、ADB验证、Appium Server安装);2)iOS环境的两种配置方式(推荐Tidevice方案和传统WDA方案);3)常见环境变量配置方法;4)环境验证步骤及常见问题排查。文章特别强调了版本兼容性问题和环境变量配置的重要性,并提供了快速启动检查清单,帮助开发者高效搭建稳定的自动化测试环境。

2026-05-14 23:39:50 87

原创 【Appium 系列】第01节-Appium 是什么 — 移动端自动化的行业标准

摘要: Appium是支持Android和iOS双平台的移动端自动化测试工具,采用C/S架构,通过Appium Server转发请求至对应平台引擎(UiAutomator2/XCUITest)。其核心优势在于允许使用同一套代码(如Python)测试多平台,降低维护成本。相比UIAutomator2、XCUITest等单平台工具,Appium更适合跨平台项目,但启动速度较慢(需10-60秒)。Appium 2.0改为插件化设计,需独立安装驱动。常见问题包括混淆Client/Server、驱动未安装等,建议配合

2026-05-14 23:35:47 72

原创 【AI测试智能体4】测试全过,上线后全崩:14年测试老兵的测试集踩坑指南

《AI测试踩坑指南:从传统测试到智能体测试的转型经验》 本文分享了一位14年测试老兵从传统测试转向AI测试时遇到的典型问题。作者发现,传统测试中99%通过率的接口测试方法在AI测试中完全失效——上线后用户投诉率高达40%。核心问题在于测试集设计存在严重缺陷: 测试用例缺乏层次性,全部集中在简单主路径场景,忽略了复杂交互 未覆盖边界情况(如超长输入、空输入等) 缺少鲁棒性测试(用户输入不规范、中途改主意等情况) 对抗性测试不足(如Prompt注入攻击) 解决方案包括: 建立难度梯度(简单/中等/复杂) 补充边

2026-05-14 07:55:39 237

原创 AI测试智能体(agent)实战:我花了一个周末搭的智能体,到底能干什么?

本文介绍了一个电商数据分析智能体的功能与应用场景。该智能体能够将自然语言任务拆解为子任务,通过6种工具(数据查询、计算、代码执行等)完成规划-执行-反思的完整链路,最终输出业务报告。作者明确了其适用场景(数据分析、多轮对话等)和局限性(不支持复杂编排、持久化存储等),并强调该项目的核心价值在于:1)作为可测试的智能体样本;2)教学用的最小实现范例(1466行代码);3)可适配不同场景的通用框架。文章还预告了后续将围绕该智能体展开8个维度的系统测试(包括任务规划、安全检测等),相关代码将于近期开源。该项目为理

2026-05-12 07:40:36 541

原创 【AI测试功能6】功能测试的自动化率:哪些该自动、哪些必须人工——AI测试人机协作决策指南

文章摘要:本文探讨了在AI产品测试中过度追求"自动化率"作为唯一KPI的潜在风险。作者指出,单纯追求自动化百分比可能导致团队聚焦于易脚本化的测试项,而忽视用户体验等关键维度。文章提出了分层测试策略:1)硬性标准(如格式校验)应完全自动化;2)半自动化处理可量化但存在灰度的测试项;3)主观判断类测试需保留人工审核。通过实战案例展示了如何平衡自动化与人工测试,强调建立校准机制和探索性测试的重要性。最后提供了代码示例说明人机协作的实现方式,并列出常见工具和注意事项。核心观点是:测试策略应关注风

2026-05-10 09:14:42 608 2

原创 【AI测试智能体3】别再只会点点了!如何测试“不可见“的AI能力?

使用 Pydantic V2 定义三层数据结构。Pydantic 比 dataclass 多了自动类型校验、JSON 序列化、嵌套验证等能力,适合处理 LLM 返回的不稳定 JSON。"""需求拆解与测试矩阵生成将模糊需求拆解为:1. 能力域(capability_domains)2. 能力项(capability_items)3. 能力点(test_points)并生成需求-维度测试矩阵。技术选型说明:- 使用 Pydantic V2 定义数据结构,自动处理类型验证和 JSON 序列化。

2026-05-10 08:27:16 466 2

原创 【AI测试数据及模型质量2】换一批测试数据,模型得分差20%——AI评测翻车的根子,90%在数据质量

数据质量评估的六个关键维度:准确性(正确性)、完整性(必填字段缺失率)、一致性(数据自洽程度)、时效性(数据新鲜度)、代表性(样本分布匹配度)和合规性(数据合法性)。文章通过金融AI案例说明各维度测量方法及权重,指出代表性最难测量(需KL散度计算),合规性具有一票否决权。提供Python代码实现六维度量化评估,强调应关注最低维度分数而非综合评分。修复优先级建议:合规性>准确性>一致性>代表性>完整性>时效性。数据质量短板决定整体水平,模型优化前应先修复数据问题。

2026-05-09 08:00:00 417

原创 【AI测试智能体2】两个智能体总分都是75分,为什么一个能做数据分析,一个只能做客服?

本文提出智能体能力的6维评估模型(任务规划、工具使用、多轮对话、代码能力、知识问答、安全性),强调单一总分无决策价值。不同业务场景需设计差异化权重,如数据分析助手侧重任务规划和代码能力,客服智能体则重视多轮对话和安全性。模型引入短板效应机制(任一维度低于40分总分打八折),防止关键能力缺陷被总分掩盖。通过场景化权重配置和短板检测,可更精准评估智能体与业务需求的匹配度,避免选型失误。

2026-05-08 21:26:05 428

原创 【AI测试智能体】为什么传统测试方法对智能体失效?

文章摘要: 本文探讨了传统软件测试方法在评估AI智能体时面临的挑战。作者指出,传统测试基于三个假设(确定性输出、精确预期、缺陷复现)在智能体场景下全部失效。通过实验数据展示,同一任务在不同temperature参数下会产生不同成功率(67%-100%)和输出一致性(50%-67%)。文章提出12个关键改造方向,包括从断言判断转向统计分布分析、固定LLM变量、建立评分机制等,并给出不同测试阶段的温度设置建议(单元测试0.1-0.3,探索性测试0.7-1.0)。核心结论是:需要用概率性评估替代确定性测试,构建适

2026-05-08 16:40:32 490

原创 【AI测试功能5】AI功能测试的“黄金数据集“构建指南:从0到1搭建质量评估体系

《AI功能测试的黄金数据集构建指南》摘要 本文系统介绍了构建黄金数据集的方法论,重点解决AI测试中质量评估标准缺失的问题。通过实际案例说明,传统测试用例与黄金数据集的核心差异在于前者验证功能正确性,后者定义质量标尺。文章提出五步构建法:用例收集、人工标注、基线测试、自动化集成和定期维护,并推荐150-500条精选用例的合理规模。关键点包括: 黄金数据集应包含多维评判标准(准确性、相关性等)而非单一预期输出 40-50%用例应来自生产日志以反映真实场景 需区分硬性标准(必须通过)和软性标准(评分阈值) 提供完

2026-05-08 14:38:23 474

原创 【免费福利】AI测试:测试技能包进阶:造数、压测、视觉回归、CI 全流程串联

《AI测试用例生成系统的全面解析》 本文深入探讨了AI生成测试用例系统的核心功能与技术实现。系统通过多维度防护机制解决AI生成用例可能遗漏的问题,覆盖数据测试、状态测试、集成测试和非功能测试等场景,将用例覆盖率提升至85-90%。 系统主要优势包括: 30秒快速生成测试脚本,支持11种常见测试场景模板 采用稳定定位策略,减少UI改版导致的脚本失效 集成OpenAPI导入、环境变量管理、Allure报告等实用功能 新增视觉回归测试,自动检测页面像素级差异 完整的CI/CD集成,实现代码提交后自动触发5类测试

2026-05-07 17:48:33 556 2

原创 【AI测试数据及模型质量1】数据质量是AI质量的天花板:为什么数据比模型更重要

数据质量决定了AI系统的上限。模型架构决定你能不能接近这个上限,超参数决定你离上限有多近。但天花板的高度,是数据定的。数据质量对模型性能的影响(5-15%提升),通常大于模型架构升级(2-8%提升)数据问题会被模型放大3-4倍:训练5%错误 → 推理15-20%错误评测数据质量比训练数据更重要——评测数据有错误,你会误判模型能力测试工程师必须能用数据证明数据质量的影响,不能只靠经验判断你的团队在数据质量上花了多少精力?有没有做过数据质量与模型性能的对比实验?

2026-05-06 18:00:00 200

原创 【AI测试功能4】500条测试用例,只覆盖了30%——AI测试用例设计方法重构

文章摘要:本文探讨了AI测试用例设计的革新方法,指出传统"等价类划分+边界值分析"在AI场景下覆盖率仅30%的局限性。通过电商客服AI的实际案例,作者展示了如何从"输入格式覆盖"转向"语义意图覆盖":1)将用例按语义意图分类(事实查询/分析推理等);2)测试模型能力边界;3)进行提示词敏感性分析;4)使用正交设计优化组合。实施新方法后,用例数从500降至260条,覆盖率却从30%提升至85%,投诉率下降60%。文章强调AI测试的核心是覆盖语义意图而

2026-05-06 08:00:00 585

原创 【AI测试功能3】AI功能测试的三层架构:单元测试 → 集成测试 → E2E测试——AI系统测试金字塔实战指南

《AI测试分层策略:从40分钟到5分钟的问题定位》 文章揭示了仅依赖E2E测试的致命缺陷:测试执行慢(40分钟)、问题定位难(2小时排查Prompt拼写错误)。通过重构测试体系,作者团队将30条E2E测试拆分为295条分层测试(50%单元+35%集成+15%E2E),实现三大突破: 效率提升:测试总时间缩短20%,问题发现量提升3倍 精准定位:单元测试2分钟内暴露Prompt模板错误 架构革新:提出AI专属测试金字塔,强调集成测试重要性(35%)以应对模块协作复杂度 核心方法论包含: 单元层:Mock外部依

2026-05-05 23:57:35 607

原创 【AI测试系统】第6篇:需求扔进去,3 分钟出测试用例?AI测试系统的 RAG 知识增强实战

本文介绍了如何利用RAG(检索增强生成)技术提升AI测试用例生成系统的质量。针对传统AI测试用例生成"从零开始"、质量不稳定的问题,作者设计了一套双模式检索架构,支持MySQL全文搜索和ChromaDB向量检索。系统通过RAGService统一接口检索历史用例和项目规范,再经ContextOptimizer优化上下文后注入Prompt,使AI生成更符合实际需求的测试用例。文章详细拆解了架构设计、核心代码实现和实际踩坑经验,包括中文分词处理、Token优化等关键技术点。该系统已在测试流程中

2026-05-04 18:00:00 1515 2

原创 【AI测试功能2】AI功能测试的“不可确定性“难题与应对思路:从精确断言到统计判定的完整方案

文章摘要:本文探讨了AI功能测试中由模型随机性带来的挑战,提出了从精确断言转向统计判定的方法论。核心问题在于LLM自回归生成特性导致同一Prompt多次输出结果不同,造成回归测试不稳定、质量基线难建立、Bug复现困难三大问题。解决方案包括:1)确定性模式测试用于硬性验证;2)多次采样统计判定(建议20次)评估质量分布;3)分层测试策略;4)黄金数据集回归。文章提供了医疗AI诊断测试场景示例和Python代码实现,强调需关注平均分、下四分位和标准差三项指标,并给出BERTScore、numpy等工具链建议。最

2026-05-04 11:17:02 556 2

原创 【AI测试系统】第5篇:AI 编码工具抛硬币?我们用 LangGraph 做了个“确定性+AI”的测试系统(附自愈架构)

对比维度Archon核心理念AI 编码需要规范测试流程需要规范工作流定义YAML(可视化编辑)LangGraph StateGraph(代码定义)混合编排确定性 + AI确定性 + AI + RAG人工审核审批节点审核卡片(可修改用例)自愈能力3 节点子图 + 策略工厂 + MCP 编排变量注入VariablePool(提取 + 注入 + 递归解析)实时通信SSE(单向)WebSocket(双向)RAG 知识增强。

2026-05-03 14:11:42 927 2

原创 【AI测试功能1】AI功能测试避坑指南:90%的测试工程师都在犯的错误

这是AI测试-功能系统的第1篇,整个系列会更60篇还在用 assert actual <span class="wx-em-red"> expected 测 AI?你的测试基本等于没测。0. 写在前面:一个踩坑故事2025 年底,我带团队给一个金融 AI 客服系统做质量保障。团队 5 个测试工程师,全是传统 Web 测试出身,经验最少的也有 4 年。我们用了最标准的测试流程:200 条测试用例、每条固定预期答案、自动化脚本逐条比对。测试通过率 92%,上线。

2026-05-03 09:34:42 474 2

原创 【AI测试系统】第4篇:告别硬编码!基于 Markdown + Python 的 Skill 引擎设计:让 AI 测试系统拥有无限扩展的“灵魂”

本文介绍了AI测试系统中的Skill引擎设计,该系统采用声明式配置和插件式架构解决传统测试系统的痛点。核心内容包括: 设计理念 通过Markdown+YAML声明式配置定义测试技能,无需修改代码 插件式架构支持快速扩展新测试能力 自动验证输入参数,提供执行日志和错误追踪 关键技术实现 YAML Frontmatter解析:使用正则表达式提取Markdown中的配置 动态执行器加载:通过驼峰转蛇形命名自动匹配执行器类 三级降级策略:LLM API→规则引擎→Mock数据确保系统可用性 典型执行器示例 测试用例

2026-05-02 10:50:51 803 2

原创 【AI测试系统】第3篇:AI生成的测试用例太“水”?14年老兵:规则引擎+AI才是王炸组合

AI生成测试用例的实用指南:规则引擎与AI的协同方案 摘要: 本文探讨了AI生成测试用例的实际应用方案。测试老兵实测发现,单纯依赖规则引擎生成的用例过于模板化,而直接使用AI又面临成本高、速度慢和质量不稳定等问题。作者提出了一套结合规则引擎和AI的混合方案:规则引擎快速生成基础用例(10毫秒内完成),覆盖标准场景;AI则负责补充复杂业务逻辑和边缘场景用例(5-30秒生成)。通过精心设计的Prompt(包含角色定义、需求描述等五个要素)、0.7的温度参数设置、四维度质量评分机制以及完善的容错处理,显著提升了A

2026-05-01 12:33:44 524 2

原创 【AI测试系统】第2篇:拒绝盲目 AI:规则引擎 10ms 自动生成 36 条测试用例实战(附源码)

摘要:规则引擎与AI在测试用例生成中各具优势。规则引擎通过关键词匹配和场景模板快速生成基础用例(10毫秒级,零成本),适合批量初筛;AI生成用例(1-3秒/条)则能覆盖边缘场景。最佳实践是先用规则引擎提取功能点并生成正常、异常、边界3类基础用例,再用AI补充精细化场景。文中详细介绍了规则引擎的实现逻辑(关键词映射、去重策略、兜底机制)和工程建议,并指出二者互补关系:规则引擎保证广度,AI提升深度。

2026-04-30 20:35:50 518

原创 【AI测试系统】第1篇:LangGraph 实战:用 State Graph 搭建 AI测试流水线(4 步编排 + RAG 增强 + 完整代码)

文章摘要: 团队放弃Airflow改用LangGraph构建测试流程,核心优势在于LangGraph的State机制支持结构化数据传递,解决了Airflow DAG只能传key-value的问题。通过4个节点(需求分析、用例生成、测试执行、报告生成)和条件边控制流程,仅用392行代码实现全自动化测试。LangGraph的TypedDict State允许节点间共享复杂数据,如RAG检索结果、测试步骤等,而条件边确保流程可中断。优化后单用例处理时间从人工15-30分钟缩短至30秒内,其中RAG检索通过截断关键

2026-04-29 14:33:34 503

原创 【评测系列7】大模型测试:GLM-5.1 vs DeepSeek-V4 逐条拆解,新模型上线直接抄作业

文章摘要: 本文对比了GLM-5.1和DeepSeek-V4在10个真实测试任务中的表现,包括用例生成、用例评审、API测试脚本生成等。测试采用相同Prompt,结果显示两模型质量相当,但DeepSeek-V4在速度(快14.6%)和Token效率(省32.5%)上优势明显。GLM-5.1在API脚本生成更快,DeepSeek-V4在测试报告、性能方案等任务上表现更优。作者建议根据具体需求选择模型,并开源了评测框架供复用。完整Prompt和输出详见原文。(149字)

2026-04-28 18:17:18 665

原创 【评测系列6】新模型上线怎么测?我用 10条真实任务对比了 GLM-5.1 和 DeepSeek-V4

【评测摘要】本次对比测试了GLM-5.1和DeepSeek-V4-Pro两款AI模型在10项测试任务中的表现。结果显示二者通过率均为100%,但DeepSeek-V4-Pro平均速度快14.6%(60.1s vs 70.4s),Token消耗节省32.5%(22,748 vs 33,690)。DeepSeek在性能测试方案等复杂任务中优势明显(快30.5秒),而GLM-5.1在API脚本生成方面更快(快19.9秒)。成本方面,GLM-5.1享有免费额度,DeepSeek按量计费约0.91元。建议根据需求选择

2026-04-27 18:22:48 627

原创 【评测系列5】测试工程师实测 DeepSeek-V4:76条用例全过,但有两个瞬间我放下了“找茬“心态

DeepSeek-V4 全面测评摘要 DeepSeek-V4 在 76 条测试用例中全部通过,表现优异,尤其在代码能力、创意写作、长文本理解和安全对齐方面表现突出。测试涵盖 10 个维度,包括基础语言能力、代码能力、创意写作、安全与对齐、长文本能力、多轮对话、工具使用、领域知识、综合实战和压力测试。 关键亮点: 代码能力卓越:Flask 全栈项目、单元测试覆盖等用例均完美执行,适合开发者使用。 安全对齐能力强:10 条安全测试用例全部通过,有效防范越狱、敏感话题等风险。 长文本与创意写作优秀:8000 字技

2026-04-27 09:18:32 956

原创 【翻车复盘1】我以为 ChatGPT Image 2 出 Bug 了:这次翻车把我打醒了

我们不再让模型“自由想象场景”,而是把真实测试图作为输入资产上传,让模型只做“组装与排版”。**不是单点 bug,而是“模型约束 + 工程实现 + 网络链路”共同决定成败。如果你也遇到过“明明看着像 bug,但又说不清”的场景,欢迎评论区交流。**真正的生产力,不是一次偶然成功,而是可复现成功。我最初判断“是不是模型有 bug”并不离谱,但不完整。结果:有改善,但仍不能保证“只用我们的真实素材图”。**模型侧**:文字精确性、语义一致性、布局稳定性。

2026-04-27 07:00:00 752

原创 【评测系列4】测试视角:我通宵测了 ChatGPT Image 2:100%通过背后,藏着1个危险信号

摘要: 针对ChatGPTImage2的硬核实测显示,其视觉理解能力表现优异(4/4通过),极端场景(超长Prompt、极端宽高比)下稳定输出(3/3通过)。但安全测试发现1例“高相似品牌标识”请求未拦截(4条测试中3条合规)。结论:模型已具备可用性,但安全边界存在风险点,需持续监控。建议用户区分能力与风控问题,定期复测,避免绝对化安全承诺。测试流程完整可复现,覆盖视觉理解、极限场景及红队安全测试,结果存档可追溯。

2026-04-26 10:46:53 562

原创 【评测系列3】测试角度:我把ChatGPT Images 2 当测试对象“暴力实测”了一遍,结果有点猛

摘要:本文对gpt-image-2图像生成模型进行了系统性API测试,通过17条自动化用例评估其生产环境适用性。测试覆盖文字渲染、指令遵循、风格一致性及稳定性等维度,结果显示88.24%成功率,平均耗时176.5秒。关键发现包括:模型能力稳定但需优化链路策略、复杂指令执行可靠、风格一致性良好、支持高分辨率输出。建议实际应用时采用分层测试、请求留痕、自动重试等工程化方法,确认该模型已具备内容生产工具级别的可靠性。测试方法强调可复现性,所有请求均通过API自动记录保存。

2026-04-25 22:32:57 378

原创 【CrewAI系列7】我用 AI Agent 做性能测试,发现了 1 个致命瓶颈

《性能测试实战:从20倍性能差异到优化方案》摘要 本文通过真实案例展示了性能测试的关键价值。作者对自研FastAPI系统进行测试时发现:简单健康检查接口P95仅105ms,QPS达166;而复杂接口P95飙升至2137ms(20倍差距),QPS骤降至9.38。根本原因是psutil.cpu_percent()的阻塞调用。 文章揭示了性能测试三大误区:功能正常≠性能达标、事后优化代价高、测试复杂度被高估。作者开发了智能测试工具,实现并发控制、精确QPS计算和防缓存机制,并提出五大优化方案: 异步非阻塞调用 T

2026-04-24 15:50:29 561

原创 【CrewAI系列6】我给 Agent 装了 5 个工具,它从实习生变成了架构师

《CrewAI多Agent测试平台实战:APITestTool开发详解》文章介绍了如何为测试工程师Agent开发APITestTool工具。主要内容包括: 系统架构:5个Agent协同工作流程,其中测试工程师Agent负责执行API测试 APITestTool实现:106行核心代码,支持多种HTTP方法、异常处理和响应验证 工具集成:通过tools参数挂载到Agent,使其具备实际测试能力 WebSocket实现:实时推送测试进度和结果 实战经验:总结了类型注解、异常处理、返回值格式等5个关键开发要点 文章

2026-04-23 15:10:17 1152

原创 【CrewAI系列5】万字拆解 CrewAI 角色设计:3 个要素让 Agent 输出专业 10 倍

本文探讨了CrewAI框架中Agent角色设计的关键方法论。通过对比实验发现,专业角色定义(包含明确经验级别、专业领域和英文对照)比模糊角色的输出质量高10倍以上。文章提出角色设计三要素:role(身份证)、goal(KPI)、backstory(简历),并给出5个测试角色(经理、设计师、工程师、分析师、报告专员)的完整模板。同时总结了8个常见错误及排障方法,强调角色定义需要迭代优化,建议花80%时间在角色设计上。核心结论:专业的角色定义能让Agent首次输出即达专业水准,是提升多Agent系统效能的关键。

2026-04-22 15:43:28 496

原创 【评测系列2】54 个任务 5 个维度我把 OpenClaw Agent 测了个底朝天

OpenClawAgent评测报告摘要 阿里云通义千问驱动的OpenClawAgent在54项任务测试中综合得分3.47/5(C级),呈现显著能力分化: 优势项:多轮对话(4.26)与代码能力(4.10)达B+级,表现亮眼 短板项:工具使用仅2.64分(D+级),API调用存在参数遗漏、错误处理缺失等硬伤 中等表现:任务规划(3.37)和知识应用(3.33)处于C+水平 评测揭示三大改进方向: 工具调用需强化参数校验与错误恢复机制 知识更新滞后影响专业领域回答准确性 复杂任务分解存在步骤遗漏风险 完整测试框

2026-04-21 19:00:00 1180

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除