【论文通读】VideoGUI: A Benchmark for GUI Automation from Instructional Videos

VideoGUI: A Benchmark for GUI Automation from Instructional Videos

前言

数字智能体的探索又来到了新的阶段,除了常见的桌面工具如PPT,Word,Excel,对于专业工具的使用是一个值得探索的领域,此外,专业工具往往对应着复杂的操作,面对几十上百操作的任务,当前的智能体能否根据query来给出相应的回答呢,本篇VideoGUI为这些问题指明了方向。

Paperhttps://arxiv.org/pdf/2406.10227
homepagehttps://showlab.github.io/videogui/

Abstract

自动化GUI可以提高人类生产力,但是现有的工作只关注于简单的电脑任务。本文提出新的多模态benchmark VideoGUI,旨在评估以视觉为中心的GUI任务上的智能体。该数据集来源网络高质量教学视频,关注于专业和新颖软件的任务和复杂操作。评估从多角度进行:

  1. High-level Planning: 没有自然语言描述情况下从视觉角度重建子任务序列。
  2. Middle-level Planning: 根据截图和目标生成精确的动作描述。
  3. Atomic-level Execution: 特定的动作,比如准确点击。

Motivation

数字时代与计算机操作主要依赖GUIs,同时LLMs在GUI自动化上展现了潜力。但是:

  1. 但是现有基于LLMs的应用在领域和任务上受到限制。
  2. 人类熟悉基础操作,但是对新颖和高级任务上束手无策。

image.png
那么如何扩展LLMs的应用场景,同时帮助人类完成难以操作的digital任务?

  1. 当前有丰富的教学视频,用于教导普通用户执行新颖且复杂的GUI任务。
  2. 利用这些教学视频进行人工标注复现,获得高质量的标注。

image.png

VideoGUI

VideoGUI涵盖11个以视觉为中心的软件应用,具有86个复杂任务(平均每个22.7个操作)和463个子任务,以及分层的手动规划和2.7K个手动操作的注释。
应用软件类型:

  • media creation: PPT,Runway,Stable Diffusion
  • media editing: Adobe Photoshop,Premiere Pro,After Effects,CapCut,DaVinci Resolve
  • media browsing: YouTube,VLC Player,Web Stock

image.png

Pipeline

  1. 手动选择配有高质量文字记录的教学视频。为了收集人类操作轨迹,构建仿真环境来监控用户行为。
  2. 邀请志愿者复现视频内容,用模拟器记录用户的操作。
  3. 用户操作完毕提供任务文本描述,并将任务分解子任务。此外还要识别操作的活动元素。
  4. 数据集校验。

下图是任务的分布:
image.png

Evaluation

image.png
只是简单通过成功率来衡量复杂操作任务是不合适的。任务可以分解为三个阶段(High-level Planning, Middle-level Planning, Atomic-action Execution)去解决,也就可以从三个维度(子任务,每个子任务操作叙述,每个具体操作)对任务完成情况进行测评。
**High-level Planning. **将给定的指令转换成子任务,输入包括三种类别,即视觉查询、详细文本查询、视觉+文本。评估采用GPT-4-Turbo,评分范围为0-5。
**Middle-level Planning. **对于每个给定的子任务,基于观察,智能体输出合适的UI动作。包含三种模式:视觉初始状态+文本查询,文本查询,视觉状态转换。同样采用LLM进行评估。
**Atomic-action Execution. **评估模型是否能够准确输出对应的动作。包括四种通用的动作分类:点击(metric:点到指定区域的recall)、拖拽(metric:开始点和结尾点与指定区域的recall)、滚动(目的让操作元素出现在视线内 metric:视为多跳问题,计算accuracy)、打字(沙盒方案,监听按键,recall+precision进行评估)。

Experiments

Main Results

image.png
总体而言,GPT-4o取得了最好的表现。
image.png
上图研究了不同query类型对planning的影响:

  1. 对于高级和中级,仅视觉设置具有很大的挑战。
  2. 在纯文本输入上各个模型表现相似性能。说明在文本query下,文本LLM就可以满足需求。
  3. 文本+视觉并没有提升性能,说明要提升多模态的感知能力。

image.png
上图评估了不同模型在原子操作上的表现:

  • 点击:可以做出正确的估计,但是召回率差。使用OCR等工具可以提升表现。
  • 拖动:召回率都很低,OCR工具增益明显。
  • 打字:表现优秀,可能因为编码能力不错。
  • 滚动:GPT-4o表现最好。

Analysis

image.png
上图表明常见的应用(如PPT)表现更好,而专业软件上,模型性能显著下降。
image.png
上图显示的是不同操作数量任务的得分分布。随着操作数据量增加,分数不断下降,表明长序列GUI任务的难度。
image.png
上图是模型可视化的成功和失败案例。

Conclusion

本文提出针对高级GUI任务的多模式benchmark VideoGUI,这些任务来源于高质量的教学视频。VideoGUI具有较长程序任务、分层手动注释和完善的评估指标,为现有领域指明了方向。通过对当前最先进模型的比较,强调了面向视觉的 GUI 自动化的挑战以及教学视频在推进 GUI 任务自动化方面的潜力。对于这篇工作,我也有一些自己的思考:

  1. 对高级软件的自动化探索是个有趣的方向,但是仅仅通过手动构建benchmark的方式不具有扩展性。
  2. 测评采用GPT-4-turbo的方式有些不公平,毕竟他会偏向于自己的输出,并且输出得分也是不稳定的。
  3. 如何自动化收集不同工具的复杂操作是一个值得探索的方向。
  4. 视频资源采用人类复现的方式感觉没有物尽其用,应该有更好的利用这些资源的方式。
  • 30
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HERODING77

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值