文中提到的方法主要是用于对目标进行识别定位的环节。
以前业界主流的方法:
1.通过xml信息,以线性规则判断。
但是无法对于交互意图有所拆解,并且由于不同的页面、业务、技术栈、APP实现的方式不同,很难通过线性规则在不同场景下进行高准确性的识别判断。
2.基于图像,用目标检测识别元素
泛化性较差。
3.通过渲染树提取文本信息,按照关键词进行匹配
最后文中的方法是用综合图像信息(图像Similarity)、文本信息(OCR文本Similarity)、渲染树信息(节点属性匹配)三种评判指标,组合为线性判断规则,根据此策略得到最终匹配或检测结果。
为解决UI测试中人工成本高的问题,应对【前端技术栈多样,基于规则的测试脚本很难泛化】,【UI样式繁多,基于CV方法也比较困难】的难点,提出了基于UI交互意图理解的异常检测方法,利用多模态模型,对用户可见文本,视觉图像内容和UI组件树中属性进行融合,实现对UI交互意图的准确识别。
交互意图簇:被用户认为能够提供特定的功能并达到预期目的的页面模块。
UI交互意图定义为「用户通过当前UI展示推断出来的不同模块的概念及交互功能」。
结合多种机器学习方法,通过机器获取与人工认知一致的“交互意图”,从而利用该信息模拟测试人员对客户端产品进行“理解-操作-检查”的测试验证流程。
具体来说,本项目的技术方案分为两个部分:
-
UI交互意图理解:基于深度学习方法对交易流程中表单/订单场景进行目标UI交互意图簇识别划分。