Midscene官网
Midscene.js - AI 驱动,带来愉悦的 UI 自动化体验 - Midscene.js
插件安装
地址:
启动扩展(可能默认折叠在 Chrome 扩展列表中),通过粘贴 Key=Value 格式配置插件环境:
配置信息:其中【OPENAI_API_KEY】需要去阿里云百炼申请
下面这段配置输入进去,第一行需要改掉
OPENAI_API_KEY="输入阿里云里的API-KEY"(key获取见下一步)
OPENAI_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"
MIDSCENE_MODEL_NAME="qwen-vl-max-latest"
AI模型
官方推荐3种,其中通义千问成本最低,但是速度有点慢
OPENAI_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1" # 或任何其他提供商的接入点。
OPENAI_API_KEY="......"
MIDSCENE_MODEL_NAME="qwen-vl-max-latest"
MIDSCENE_USE_QWEN_VL=1 # 别忘了配置这项,用于启用 Qwen 2.5 模式!
阿里云地址:
可以用支付宝登录,因为需要实名认证,未实名认证时也可以生成api-key,但实际在插件中使用时没用
创建后查看key
生成key后配置到浏览器的插件中,测试下是否成功
如果不成功,排错方法参考官方文档:
总结
用ai实现UI自动化已成为新的趋势,与传统的UI自动化对比,Midscene.js 是一个创新的、面向开发者的 UI 自动化解决方案,并通过人工智能技术简化自动化脚本的编写与维护。
它提供了三种核心方法——交互(.ai, .aiAction)、提取(.aiQuery)和断言(.aiAssert),使开发者能够以自然语言描述步骤并执行复杂的UI操作。
它不仅支持通用的大规模语言模型(LLM),还兼容开源模型 UI-TARS,为用户提供了更多的选择。
但这个插件的作用主要还是用来调试简单的测试场景,输入的文字过多,速度会很慢,且容易出错。以下链接介绍如何使用插件的桥接模式,结合自动化脚本进行测试