-
作者:Qi Chen,Dileepa Pitawela,Chongyang Zhao,Gengze Zhou,Hsiang-Ting Chen,Qi Wu
-
单位:澳大利亚机器学习研究所,阿德莱德大学
-
原文链接:WebVLN: Vision-and-Language Navigation on Websites (https://ojs.aaai.org/index.php/AAAI/article/view/27878)
-
代码链接:https://github.com/WebVLN/WebVLN
主要贡献
-
论文提出了Vision-and-Language Navigation on Websites(WebVLN)任务,模拟用户在网站上的自然浏览行为,并基于输入的问题和辅助描述导航到指定目标网页,然后使用从目标网页中提取的信息回答问题。
-
构建了WebVLN-v1数据集,包含8,990条记录/路径和14,825个问答对,涵盖了导航和问答任务。WebVLN-v1数据集支持导航和问答任务,提供了一个统一的基准,而其他相关数据集只能支持其中一个任务。
-
提出了Website-aware Vision-and-Language Navigation Network(WebVLN-Net),不仅考虑了视觉输入(截图)和语言指令,还使用了网页特定的内容(即网页的HTML)来增强决策精度,提供了更丰富的上下文进行导航和问答。
研究背景
研究问题
论文提出网站上的视觉语言导航(WebVLN)任务,旨在使AI代理能够理解和遵循自然语言指令,在虚拟环境中(即互联网网站)进行导航,最终到达特定目标位置。
研究难点
该问题的研究难点包括:
-
网站选择的多样性:每个网页提供多种导航选择,如点击各种链接、按钮和下拉菜单。
-
复杂的导航图:由于每个网页的选择多样性和复杂性,WebVLN构建了比传统VLN更复杂的导航图,使得通过简单的启发式试错法探索所有内容几乎不可能。
相关工作
该问题的研究相关工作包括视觉语言导航(VLN)任务和其他与网页相关的导航和问答任务。 VLN任务主要关注视觉和语言的结合,而其他相关任务如网页导航和网页问答则分别关注不同的方面。
数据集构建
论文创建了一个新的WebVLN-v1数据集,包含8,990条记录/路径和14,825个问答对,来自三个不同的购物网站(SA、HB和ES)。数据集涵盖了导航和问答环境,并采用了基于大型语言模型(LLM)的问题-答案生成方法。
模拟器
在三个不同的购物网站上建立了WebVLN模拟器,模拟人类行为,包括浏览网页、点击按钮等操作。
路径生成
采用类似于R2R的方法生成从主页到目标页面的最短路径,并通过人工检查确保路径的合理性。
问题-答案生成
利用BLIP-2模型将网页图像转换为标题,并使用规则生成问答对,通过人工质量检查确保生成的内容与网页内容一致。
数据集特点
-
WebVLN-v1数据集在具身AI、移动应用和网站相关数据集中独树一帜,它融合了时间序列、图像、文本和HTML等多元信息,并支持导航与问答双重任务,而其他数据集往往只涵盖其中一部分。
-
通过词云可视化,可以发现问题和描述中高频词汇聚焦于用户交互与网页元素。问题长度多在8-12词之间,描述长度在7-14词,而答案长度则更为灵活,有时长达30-40词,反映了答案的复杂性和多样性。
-
数据集被划分为训练、验证和测试集,比例分别为60%、10%和30%,确保了各部分数据的独立性和代表性。
本文方法
论文提出了基于网站感知的视觉语言导航网络(WebVLN-Net),用于解决WebVLN任务。
状态和上下文初始化
使用预训练的BERT模型初始化状态和上下文token:
其中,和是BERT中的预定义token,是从问题和辅助描述中提取的语言token。
网页导航
将初始化的语言token与当前网页的截图和按钮token一起输入到导航模块中。这个过程迭代进行,直到到达目标网页。公式如下:
其中,是通过图像编码器将截图转换为token,是通过按钮编码器将按钮图像和描述转换为token。
网页问答
引入多层 Transformer解码器生成最终答案:
其中,表示问答过程,表示最后一个状态。
实验设计
评估指标
-
导航指标:成功率(SR)、最优成功率(OSR)、路径长度加权成功率(SPL)、轨迹长度(TL)。
-
问答指标:采用Wu-Palmer相似度(WUPS),量化预测答案与真实答案的语义差异。
基线模型
-
传统VLN模型:使用VLN BERT,分别随机初始化和通过LXMERT初始化。
-
网页相关导航模型:使用WebGUM,基于T5模型,分为T5-small和T5-base版本。
-
其他基线:包括随机策略和人类表现,作为任务的下限和上限。
结果与分析
导航性能
WebVLN-Net在成功率(SR)、预言成功率(OSR)、按路径长度加权的成功率(SPL)和轨迹长度(TL)等指标上均优于现有的VLN方法和网页相关导航技术。
问答性能
在Wu-Palmer相似度(WUPS)指标上,WebVLN-Net也显著优于所有基线方法,表明其在生成自然语言答案方面的有效性。
消融研究
通过逐步添加辅助描述和按钮信息,验证了这些组件对模型性能的提升作用。结果表明,辅助描述和按钮信息的结合显著提高了模型的导航和问答性能。
总结
论文提出了一个新的任务WebVLN,并为其设计了一个新的数据集WebVLN-v1和一个新的方法WebVLN-Net。
实验结果表明,WebVLN-Net在导航和问答任务上均表现出色,验证了其有效性和实用性。
此外,通过对大型语言模型进行零样本评估,展示了WebVLN-v1作为评估该领域进展的基准的潜力。