爆火！AI 助力 UI 自动化测试，Midscene.js 究竟有多强

小码哥说测试

于 2025-02-10 13:55:45 发布

阅读量1.7k

点赞数 21

分类专栏：软件测试自动化测试技术分享文章标签： jmeter postman 测试工具测试用例自动化测试软件测试测试工程师

本文链接：https://blog.csdn.net/jiangjunsss/article/details/145548746

版权

UI 自动化测试的重要性与挑战

在当今软件开发的快速发展进程中，UI自动化测试已成为保障软件质量、提升开发效率的关键环节。随着软件系统的日益复杂和用户需求的不断增长，传统的手动测试方式已难以满足现代软件开发的节奏和质量要求。

UI 自动化测试的重要性

提升测试效率：手动测试往往需要测试人员逐个执行测试用例，耗费大量的时间和精力。而UI自动化测试可以通过编写脚本，让计算机自动执行测试，大大缩短了测试周期。

1.保证软件质量：自动化测试能够更全面地覆盖软件的各种功能和场景，减少人为疏忽导致的测试遗漏。通过自动化脚本，可以模拟各种用户操作，包括正常操作和异常操作，从而更有效地发现软件中的潜在缺陷和问题，确保应用在不同情况下都能稳定运行，提升软件的质量和稳定性。

2.节省人力成本：随着软件项目规模的不断扩大，测试工作量也随之增加。如果全部依赖手动测试，需要投入大量的人力资源。而采用UI自动化测试，可以将测试人员从繁琐的重复劳动中解放出来，让他们能够专注于更有价值的测试工作，这不仅节省了人力成本，还提高了测试团队的工作效率和专业水平。

传统 UI 自动化测试面临的挑战

1.选择器复杂：在传统的UI自动化测试中，选择页面元素通常依赖于CSS选择器、XPath等方式。然而，这些选择器在面对复杂的页面结构时，往往变得非常复杂和难以维护。例如，当页面中的元素层级较多，或者元素的属性不唯一时，编写准确的选择器就变得十分困难。而且，一旦页面结构发生变化，选择器也需要随之修改，这增加了测试脚本的维护成本。

2.与 HTML 结构耦合度高：传统的UI自动化测试脚本与HTML结构紧密耦合，这意味着当HTML结构发生变化时，测试脚本很容易失效。在一个频繁更新的Web应用中，页面的布局和结构可能会经常调整，如果测试脚本没有良好的设计，就需要花费大量的时间和精力去修改和维护，严重影响了测试的效率和稳定性。

3.界面断言困难：在UI自动化测试中，判断页面元素是否符合预期是一个重要的环节。然而，传统的测试方法在进行界面断言时存在一定的困难。例如，判断一个按钮是否可点击，或者一个文本框是否显示正确的提示信息，需要编写复杂的断言逻辑。而且，由于页面元素的状态可能受到多种因素的影响，如网络延迟、异步加载等，这使得界面断言更加复杂和不可靠。

Midscene.js：自动化测试的革新者

Midscene.js 是什么

在应对传统UI自动化测试的重重挑战时，Midscene.js应运而生，它是字节跳动团队开源的一款基于AI技术的自动化SDK，犹如一颗璀璨的新星，为UI自动化测试领域带来了新的曙光，其核心目标是极大地简化UI自动化测试的流程，让测试工作变得更加高效、便捷。

Midscene.js的工作原理基于大型语言模型（LLM），它能够像一位智能助手一样，精准解析用户输入的自然语言指令。比如当你向它下达 “输入文本”“点击按钮” 这样的指令时，它会迅速做出反应，执行相应的操作。这种智能交互方式，使得测试过程不再被复杂的代码和晦涩的技术细节所束缚，无论是经验丰富的技术专家，还是刚刚涉足测试领域的新手，都能轻松上手。

除了基本的动作执行，Midscene.js还具备强大的数据查询和页面断言功能。在数据查询方面，它可以根据你的需求，从复杂的页面内容中提取出关键信息，为数据分析和测试验证提供有力支持。而页面断言功能则像是一位严格的质量把关者，能够确保页面的状态和元素符合预期，及时发现潜在的问题和缺陷。

同时，Midscene.js还是一个开源项目，这意味着广大开发者可以自由地在自己的环境中运行它，根据实际需求进行定制和扩展。它支持与YAML脚本、Puppeteer和 Playwright等多种工具集成，能够灵活地适应多种自动化测试场景，为开发者提供了丰富的选择和无限的可能。

核心特点

1.自然语言交互：Midscene.js最显著的特点之一就是对自然语言的出色理解和应用能力。在传统的自动化测试模式中，测试人员往往需要花费大量的时间和精力编写复杂的代码，使用各种选择器和属性来定位和操作页面元素。这不仅要求测试人员具备扎实的编程基础，还容易在繁琐的代码编写过程中出现错误。而Midscene.js的出现，彻底打破了这一局面。它允许开发者使用自然语言来描述交互步骤，就像与一位贴心的助手交流一样简单。例如，你只需轻松地告诉Midscene.js“在搜索框中输入‘Headphones’，然后按 Enter”，它就能准确无误地理解你的意图，并自动执行相应的操作，无需编写任何繁琐的代码。这种自然语言交互的方式，极大地降低了自动化测试的门槛，使得非技术背景的人员，如产品经理、业务分析师等，也能够积极参与到测试工作中来。他们可以凭借对业务流程的熟悉，使用自然语言描述测试场景，为软件质量的保障贡献自己的力量，从而促进团队成员之间更加高效的协作。

2.多模态大型语言模型 (LLM)：Midscene.js的背后，是强大的多模态大型语言模型（LLM）在提供支持。这种模型犹如一个拥有超能力的智能大脑，不仅能够理解文本信息，还具备处理图像等多模态数据的能力。在UI自动化测试的过程中，Midscene.js会将页面的截图和元素坐标等信息，如同传递重要情报一样发送给LLM。LLM则会结合这些丰富的信息，像一位经验丰富的侦探一样，深入理解用户界面的结构和内容。

3.简化的命令和集成方式：Midscene.js提供了简洁明了的命令和多样化的集成方式，进一步提升了自动化测试的便捷性。它主要包含三个核心命令：

.ai（或.aiAction）、.aiQuery、.aiAssert

.ai（或.aiAction）用于执行一系列动作，就像一个执行任务的小能手，能够按照你的指令，如 “点击登录按钮，然后输入用户名和密码”，有条不紊地完成各种交互操作。

.aiQuery用于从UI中提取数据，你只需清晰地描述所需的数据格式，无论是使用JSON格式，还是用纯字符串描述，它都能像一个精准的数据挖掘者一样，从页面中提取出你需要的数据。

.aiAssert用于进行断言，例如页面上有一个“登录成功”的提示信息，它会严格检查页面状态是否符合你的断言条件，确保页面的正确性。

此外，Midscene.js的集成方式非常灵活。如果你想快速体验它的强大功能，可以通过Chrom

最低0.47元/天解锁文章