在这篇论文中,我们提出了用于中文用户界面操作的 MobileVLM
两个额外的预训练步骤( four specific tasks) 来提高预训练模型的效果。
提供了 数据集 Mobile3M :包括 300万的静态页面、也包括 有向图结构的 真实UI过渡动作。
论文的主要贡献:
(1)MobileVLM
(2)Mobile3M
(3)定义了 两个额外的预训练步骤和4个基于UI的预训练任务(在UI内部和之间的交互理解)
(4)实验结果显示 MobileVLM在ScreenQA的表现超过SOTA 14.34%、在Mobile3M超过34.18%
3.1 背景介绍
(1)UI Page:49个中文apps、用Appium收集UI页面(截图+XML文档)
XML文档:描述了UI页面的结构和内容、包括按钮、文本box元素、和页面布局信息
XML可以解析成元素集合、每个元素包含名称和坐标box (Cancel, [640,74][696,112])
(2)Action Space:click、scroll、input
UIpages的38个元素能生成包含55个动作的动作空间。
3.2 数据收集
从APPAgent获得灵感,通过随机游走算法探索app。
通过BFS的方式进行探索。
3.3 方法优化
(1)提出 unique page 机制、用BM25算法来检索当前app的前5个节点、用规则去重。这个设计大大减少了探索路径长,得到了平均路径为6.5的187k UI页面
Element Diff 是两个UI页面之间不同元素的数量,而Pixel Diff是两个屏幕截图之间的像素差异。
(2)We provide 10 related keywords for each app、scroll有4个方向
3.4 数据统计
最多的应用类型是 旅游、生活、购物
4.模型
4.1 预训练
stage 1 UI页面 内部理解
(1)Element List Generation:requires OCR and grounding abilities
(2)Element Grounding:recognize and ground elements in pages 给一个元素描述、模型需要确定它的bounding box
随机从每个页面抽取5个元素来做这个任务的预训练
(3)Action Space Generation:generate all candidate actions from the UI page
基于抽取的元素、模型需要去分析每个元素的类型(可点击、可输入、可滑动)
stage 2 跨UI的复杂结构理解
(1)Action Prediction:VLM’s ability to understand the relationship between two pages,need to predict page relationships and learn the expected outcomes of corresponding actions,providing more accurate action reasoning for downstream tasks
VLM 理解两页之间关系的能力,需要预测页面关系并学习相应动作的预期结果,为下游任务提供更准确的动作推理。
4.2 微调
这一阶段主要致力于将模型对UI内元素及UI间关系的理解转化为实际的端到端任务完成和页面问答领域。
(1)Page Navigation
输入是 一个页面+一些描述、要求输出是 生成最接近描述的动作
(2)VQA
require VLMs to answer the question based on a screenshot
在第三阶段的微调中,我们使用Mobile3M构建 自页面导航任务,同时使用Auto-UI进行 页面导航任务,并使用ScreenQA进行 视觉问答任务。
4.3 模型结构
用Qwen-VL-Chat作为基础模型(包含 Qwen-7B、ViT-bigG、Position-aware VL Adapter)
5 实验
5.1 数据集和benchmarks
测试集有两种:unseenApp(49个app中的7个app不用来训练)、 seenapp(42个app中每个任务随机抽取700条数据)
5.2 评估指标
用3个客观指标来评价:SQuAD F1*(用在ocr、vlm生成)、IoU(交并比)、Action Accuracy
Action Accuracy:
对于click、我们允许预测答案与黄金答案之间的屏幕尺寸有14%的误差范围。
对于scroll、same axis + same direction
对于input、只计算F1 score
5.3 实现细节
5.4 主要结果
6 结论
附录
待补充