AAAI-2024 | 智能体网上冲浪! WebVLN:面向网站的视觉语言导航

  • 作者:Qi Chen,Dileepa Pitawela,Chongyang Zhao,Gengze Zhou,Hsiang-Ting Chen,Qi Wu

  • 单位:澳大利亚机器学习研究所,阿德莱德大学

  • 原文链接:WebVLN: Vision-and-Language Navigation on Websites (https://ojs.aaai.org/index.php/AAAI/article/view/27878)

  • 代码链接:https://github.com/WebVLN/WebVLN

主要贡献

  • 论文提出了Vision-and-Language Navigation on Websites(WebVLN)任务,模拟用户在网站上的自然浏览行为,并基于输入的问题和辅助描述导航到指定目标网页,然后使用从目标网页中提取的信息回答问题。

  • 构建了WebVLN-v1数据集,包含8,990条记录/路径和14,825个问答对,涵盖了导航和问答任务。WebVLN-v1数据集支持导航和问答任务,提供了一个统一的基准,而其他相关数据集只能支持其中一个任务。

  • 提出了Website-aware Vision-and-Language Navigation Network(WebVLN-Net),不仅考虑了视觉输入(截图)和语言指令,还使用了网页特定的内容(即网页的HTML)来增强决策精度,提供了更丰富的上下文进行导航和问答。

研究背景

研究问题

论文提出网站上的视觉语言导航(WebVLN)任务,旨在使AI代理能够理解和遵循自然语言指令,在虚拟环境中(即互联网网站)进行导航,最终到达特定目标位置。

研究难点

该问题的研究难点包括:

  • 网站选择的多样性:每个网页提供多种导航选择,如点击各种链接、按钮和下拉菜单。

  • 复杂的导航图:由于每个网页的选择多样性和复杂性,WebVLN构建了比传统VLN更复杂的导航图,使得通过简单的启发式试错法探索所有内容几乎不可能。

相关工作

该问题的研究相关工作包括视觉语言导航(VLN)任务和其他与网页相关的导航和问答任务。 VLN任务主要关注视觉和语言的结合,而其他相关任务如网页导航和网页问答则分别关注不同的方面。

数据集构建

论文创建了一个新的WebVLN-v1数据集,包含8,990条记录/路径和14,825个问答对,来自三个不同的购物网站(SA、HB和ES)。数据集涵盖了导航和问答环境,并采用了基于大型语言模型(LLM)的问题-答案生成方法。

模拟器

在三个不同的购物网站上建立了WebVLN模拟器,模拟人类行为,包括浏览网页、点击按钮等操作。

路径生成

采用类似于R2R的方法生成从主页到目标页面的最短路径,并通过人工检查确保路径的合理性。

问题-答案生成

利用BLIP-2模型将网页图像转换为标题,并使用规则生成问答对,通过人工质量检查确保生成的内容与网页内容一致。

数据集特点

  • WebVLN-v1数据集在具身AI、移动应用和网站相关数据集中独树一帜,它融合了时间序列、图像、文本和HTML等多元信息,并支持导航与问答双重任务,而其他数据集往往只涵盖其中一部分。

  • 通过词云可视化,可以发现问题和描述中高频词汇聚焦于用户交互与网页元素。问题长度多在8-12词之间,描述长度在7-14词,而答案长度则更为灵活,有时长达30-40词,反映了答案的复杂性和多样性。

  • 数据集被划分为训练、验证和测试集,比例分别为60%、10%和30%,确保了各部分数据的独立性和代表性。

本文方法

论文提出了基于网站感知的视觉语言导航网络(WebVLN-Net),用于解决WebVLN任务。

状态和上下文初始化

使用预训练的BERT模型初始化状态和上下文token:

其中,和是BERT中的预定义token,是从问题和辅助描述中提取的语言token。

网页导航

将初始化的语言token与当前网页的截图和按钮token一起输入到导航模块中。这个过程迭代进行,直到到达目标网页。公式如下:

其中,是通过图像编码器将截图转换为token,是通过按钮编码器将按钮图像和描述转换为token。

网页问答

引入多层 Transformer解码器生成最终答案:

其中,表示问答过程,表示最后一个状态。

实验设计

评估指标

  • 导航指标:成功率(SR)、最优成功率(OSR)、路径长度加权成功率(SPL)、轨迹长度(TL)。

  • 问答指标:采用Wu-Palmer相似度(WUPS),量化预测答案与真实答案的语义差异。

基线模型

  • 传统VLN模型:使用VLN BERT,分别随机初始化和通过LXMERT初始化。

  • 网页相关导航模型:使用WebGUM,基于T5模型,分为T5-small和T5-base版本。

  • 其他基线:包括随机策略和人类表现,作为任务的下限和上限。

结果与分析

导航性能

WebVLN-Net在成功率(SR)、预言成功率(OSR)、按路径长度加权的成功率(SPL)和轨迹长度(TL)等指标上均优于现有的VLN方法和网页相关导航技术。

问答性能

在Wu-Palmer相似度(WUPS)指标上,WebVLN-Net也显著优于所有基线方法,表明其在生成自然语言答案方面的有效性。

消融研究

通过逐步添加辅助描述和按钮信息,验证了这些组件对模型性能的提升作用。结果表明,辅助描述和按钮信息的结合显著提高了模型的导航和问答性能。

总结

论文提出了一个新的任务WebVLN,并为其设计了一个新的数据集WebVLN-v1和一个新的方法WebVLN-Net。

实验结果表明,WebVLN-Net在导航和问答任务上均表现出色,验证了其有效性和实用性。

此外,通过对大型语言模型进行零样本评估,展示了WebVLN-v1作为评估该领域进展的基准的潜力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值