未来已来:网页导航革命AutoWebGLM

©作者|LuMiQ

来源|神州问学

引言

想象一下,未来你的智能手机不仅是通讯工具,而是成为了你的私人助理:每天早晨为你汇总当日新闻,学习时帮你解决数学难题,节日时帮你挑选完美的礼物。随着大语言模型和智能体技术的飞速发展,这些曾经遥不可及的想法正逐渐从科幻走进现实。

在这个基于大模型的智能搜索领域里,国内外企业纷纷入局:360公司推出了360AI搜索,秘塔科技推出了秘塔AI搜索,OpenAI的WebGPT,Perplexity AI的同名搜索引擎等等。它们利用互联网资源和大语言模型,为用户提供了前所未有的智能化搜索体验;然而,这些工具与网页的交互功能十分有限,面向用户的任务需求也是单一的信息问答形式。

而其他能够与网页进行复杂交互的智能体方案,如WebAgent虽然性能卓越,却受限于模型540B的庞大规模。MindAct则需要多次调用模型才能完成一次与网页的交互,严重降低了用户体验。

在这样的背景下,AutoWebGLM应运而生,它不仅解决了现有技术的痛点,还预示着智能网页导航的新纪元。本文将深入探讨AutoWebGLM的技术原理,以及它的未来发展方向,展望它如何能引领网页导航的未来潮流。

AutoWebGLM介绍

AutoWebGLM是一个基于开源预训练大模型ChatGLM3-6B的网页浏览智能体,旨在像人类一样自主完成网页的导航和交互,从而完成现实生活中更加复杂的任务。一般来讲,专注于与网站进行交互的智能体会遇到三个主要的挑战:

1.  统一行为空间的缺失:不同网站的交互方式千差万别,目前尚未形成一个能够跨网站通用、包含所有可执行操作的行为空间。这就像是在一个没有统一规则的游戏中,让智能体找到一种在不同环境下都能通行无阻的策略。

2.  网页内容的复杂性:网站的多样性和复杂性,以及部分网页内容的冗长,使得智能体在判断和执行正确操作时面临巨大挑战。缺乏一种有效的方法来简化网站信息,让智能体能够更清晰地识别关键任务元素。

3.  高质量数据的匮乏:缺少高质量的用户交互轨迹数据,导致现有的基于大语言模型的网页交互智能体的推理和自我检查能力存在不足。一旦智能体的决策偏离正轨,它们很难自我纠正,容易陷入错误交互的死循环。

为了应对以上挑战,在这篇文献中,AutoWebGLM的团队的贡献有

● 通过人工与模型结合的方式,构建了一个中英双语,包含有约10000条网页交互轨迹的数据集

● 提出了一个简化HTML算法,以及提供给智能体使用的网页观察空间

● 通过课程学习、自采样强化学习以及拒绝采样微调训练了AutoWebGLM智能体,并且通过多个测试数据集上的测试,证明AutoWebGLM 6B的效果可以与当前最先进的大模型智能体相媲美,在现实世界的互联网浏览任务中取得不俗的表现

AutoWebGLM技术原理,智能导航

数据集构建

由于用户高质量、复杂交互轨迹训练数据的稀缺性,AutoWebGLM的团队采用了一种创新的人工与AI结合的数据构建策略来构建训练数据集,并把数据构建分成了两个阶段:

图片

图1. AutoWebGLM的训练数据集构建框架

简单任务数据集构建:基础交互的基石

简单任务数据集的构建,是为了让智能体学会网页的“语言”。这包括两个关键部分:网页识别任务和单次交互任务。

网页识别任务旨在让智能体理解网页的结构,识别各种HTML元素,并掌握它们在用户交互中的作用,比如搜索框的作用,就是帮助用户搜索他们感兴趣的产品。为了构建这一数据集,AutoWebGLM的团队提取了Similarweb列举出来的主流中文和英文网站链接,利用HTML简化算法,提取出网页的一系列可进行交互元素的信息。随后,通过GPT-3.5-Turbo生成有关这些元素功能的多个问题和回答。

单次交互任务则更进一步,训练智能体执行如点击链接、提交表单等基础操作。这一过程类似于教智能体如何使用网页上的每一个工具和功能。构建单次交互任务的数据集类似于构建网页识别任务的数据集。不同的是,为了确保数据集的全面性,AutoWebGLM的团队选择为每种交互类型创建了一个分组,并根据实际使用中每种交互的使用频率调整每个分组的数据大小,而这样做的目的是为了反映出不同交互在现实世界中的实际使用频率。

在这个过程中,AutoWebGLM团队还采用了一种规则导向的策略,而不是完全依赖大模型生成任务。这种方法涉及到识别网页上所有可交互的元素,例如按钮和滚动条等,然后将这些元素组合起来,形成可以执行的网页操作,比如提交表单、滚动页面等。最后为了生成每个任务的操作意图,团队利用了GPT-3.5-Turbo。对于行为模式相对固定且简单的操作,如滚动和跳转,团队采用了预设模板来生成任务,这样可以保证任务的一致性和准确性。而对于更复杂的操作,如点击和输入,则需要更多的创造性和灵活性,因此团队利用GPT-3.5-Turbo来辅助构建任务。这种结合了模板和AI的方法,不仅确保了指令的可执行性,也增加了操作任务的丰富性。

复杂任务数据集构建:规划与推理的挑战

复杂任务阶段的目标是使模型具备在互联网浏览时的规划和推理能力。通过为每个网站设计50个复杂任务,并手动筛选出可行的任务进行标注,形成了一个包含操作序列和步骤意图的样本库。为了提高数据构建的效率和准确性,采用了全局思维链提示方法,利用GPT-4预测每一步的意图,从而生成连贯的任务执行链。

除了以上提到的两个数据集,AutoWebGLM使用的训练数据还包括MindWob++、Mind2Web的训练数据集。

● MiniWob++提供了超过100个可交互的网页环境,专门用于评估模型与网页组件交互的能力

● WebArena面向四个互联网使用热门领域,在线购物、论坛讨论、协作开发以及业务内容管理,构建了功能与数据均与现实生活极为相似的网站,对于模拟现实世界的任务完成情况至关重要。

图片

图2. AutoWebGLM的训练数据集的组成图

AutoWebBench评估数据集:智能体性能的试金石

AutoWebBench是AutoWebGLM团队构建的用于评估智能体性能的数据集,它的内容取自复杂任务数据集。这个评估数据集可以被分为两个部分:领域内数据和领域外数据。

● 领域内数据:来自训练数据提取的网站,用于评估智能体在熟悉环境下的表现

● 领域外数据:来自未经训练的新网站,用于评估智能体的泛化能力

AutoWebGLM的框架可以被分为两个部分,浏览框架部分和语言模型智能体部分。下面我们将分别详细介绍两个部分的实现方式。

图片

图3. AutoWebGLM的系统框架

网页浏览框架

AutoWebGLM的网页浏览框架构建了一个全面且精确的观察空间,极大地提升了智能体对网页的理解力和交互能力。这个观察空间的设计主旨是尽可能地模拟浏览器的图形用户界面,以便智能体能够以最接近人类用户的方式与网页进行互动。为此,AutoWebGLM的团队定义了四个关键指标,构成了智能体理解网页的基础:

1.  任务描述:明确告诉智能体当前任务的目标,为其导航提供方向。

2.  简化的HTML结构:通过HTML简化算法剔除网页中的冗余和无效信息,提炼出核心内容,使智能体能够更高效地理解网页结构和网页内容。

a.  AutoWebGLM的HTML简化算法将网页解析为树状结构,网页的每个元素都是树上的一个节点。算法会识别并删除那些无文字、无属性、非交互性、无子节点且非根节点的节点,从而精简网页结构,同时保留关键信息。

3.  当前位置:赋予智能体对网页空间布局的感知能力。智能体能够通过识别网页的滚动条位置来理解用户当前可视区域的内容;同时,通过页面高度信息,智能体能够把握整个网页的规模,从而获得对页面整体结构的宏观理解。

4.  历史交互记录:通过回顾之前的交互记录,智能体能够回顾和学习过去的交互模式,避免进行重复错误交互而进入死循环;同时,历史交互记录也有助于增强智能体对用户意图的理解,使智能体能够更准确地预测用户的下一步可能需求,提升用户体验。

此外,AutoWebGLM的网页浏览框架中的OCR模块也在解析图像时发挥着重要作用,它能够识别和标注文字元素,进一步提升智能体的识别能力。

模型训练

AutoWebGLM的智能体训练策略分为三个步骤进行,课程学习、强化学习,以及拒绝采样微调。

图片

图4. AutoWebGLM的训练策略

Curriculum Learning - 课程学习

课程学习这一概念与人类学习新技能的过程十分相似,从简单的内容入门,再逐渐进阶到复杂的内容。那么实际在AutoWebGLM这一训练阶段,模型先是在构建的简单任务数据集进行训练,然后再对构建的复杂任务数据集进行训练。

在初期阶段,模型通过简单任务的训练,掌握了对基本的网页结构和网页元素功能的认知,并且能够响应基础的用户指令。随后在复杂任务的训练过程中,模型学习了如何将一个复杂任务细分为可管理的子任务,并且如何根据当前网页的状态以及历史交互记录来执行后续连贯的交互序列。

整个课程学习过程通过有监督微调训练(SFT)来实现。经过这一过程,模型可以完成独立地完成复杂的网页浏览任务,并且能够根据用户的指示灵活执行各种交互动作。

Reinforcement Learning - 强化学习

尽管课程学习训练阶段让模型具备了基础的浏览器操作和任务推断技能,这一阶段产生的局限性也逐渐显现。由于SFT的特性,模型有时会忽略网页的当前状态和历史交互序列,导致了所谓的"大模型幻觉"问题。这种现象指的是大模型所生成的文本既不符合原始输入,也不符合实际情况,通常不准确且可能具有误导性。

对于大模型幻觉问题的成因,一个可能的说法由John Schulman提出。语言类大模型的内部工作机制在它的权重中存储了类似于知识图谱的内容,而对大模型的微调实际上是让大模型根据存储在知识图谱中的知识输出正确的答案。在大模型的知识图谱缺乏相关知识的时候,输出的回答就会产生幻觉。所以如果SFT的训练内容超出了预训练大模型知识库的范畴,这个训练过程是在教大模型输出幻觉。

为了减轻大模型幻觉问题的影响,AutoWebGLM实施了一种自我采样的强化学习策略。具体来讲,这一策略首先对训练数据集中的复杂任务样本进行n折采样(n=20),然后将n折采样的输出和标准答案结合起来,构建一个具有正负对的对比数据集。在这组对比数据集中,排除了模型在所有迭代过程中均回答正确和均回答错误的样本,以避免无效训练。同时,去除这组数据集里面的重复样本以确保样本的多样性。利用这组有13000样本的对比数据集,模型通过直接偏好优化(DPO)训练方法进行第二阶段的训练,并在训练过程中引入SFT的损失来增强训练稳定性。通过这个训练策略,AutoWebGLM不仅确保了原本预训练模型的自然语言能力没有损失,还能够从自身的错误中学习并改进自己的能力。

图片

Rejection Sampling Finetuning - 拒绝采样微调

拒绝采样微调是一种提升大语言模型在特定任务上的性能的技术:通过在训练过程中引入拒绝采样的机制,筛选出对特定任务更为有效的训练样本,从而显著提高模型的准确性和相关性。在一些需要高度专业化知识的应用场景,如医疗和法律领域,拒绝采样微调技术能够使模型集中进行最相关内容的训练。

AutoWebGLM的拒绝采样微调是为了提升模型在特定领域内的网页环境的表现。这一阶段通过大规模的采样并选择精准的交互轨迹对模型进行针对性的训练,从而提升模型在特定领域的专业性。由于真实网页环境的存在的网络策略限制,微调的数据选取了分别来自MiniWob++和WebArena的大约66000和2000个样本。

AutoWebGLM的测试结果

AutoWebGLM的测试在四个数据集上进行:AutoWebBench,Mind2Web,MiniWob++,WebArena。在前文我们简单介绍了AutoWebBench,MiniWob++和WebArena数据集,下面我们将提供MInd2Web的简要说明。

 Mind2Web 是一个专为开发和评估网络代理而设计的先进的数据集,提供了超过 2000 个开放式任务,涵盖了 137 个不同的网站,跨越 31 个领域,提供了丰富的应用场景。除此之外,Mind2Web选择使用简化版本的网站,并且提供了众包收集的任务行动序列。

测试使用的主要评估标准是步骤成功率(Step Success Rate),只有在所选的元素和预测的交互动作均正确的情况下才能被视作一个成功的步骤。下面是AutoWebGLM与其他一些基线模型在这四个数据集上的测试结果。

图片

图5. 不同模型在AutoWebBench数据集上的测试结果,所有模型均使用上下文提示学习。在经过多任务训练后,AutoWebGLM在预测用户交互规律,从而与用户交互对齐有不错的表现;而其他基线模型在没有足够训练的情况下,难以根据网页内容和任务描述准确学习真实世界不同网站上的用户操作

图片

图6. 不同模型在Mind2Web数据集上的测试结果,*表示模型在相应的训练集上进行了单独的微调

图片

图7.不同模型在MiniWoB++和WebArena数据集上的测试结果,*表示模型在相应的训练集上进行了单独的微调。

AutoWebGLM的消融实验结果

消融实验可以简单理解为控制变量评估实验,是指通过逐步移除系统的一部分来评估该系统的贡献,有助于理解系统不同组成部分对系统整体性能的影响。

图片

图8. AutoWebGLM的数据消融训练实验和策略消融训练实验的结果

数据消融训练实验检测了在模型训练过程中加入简单任务数据集和复杂任务数据集,对模型效果的影响。简单任务数据集在单独添加时,对模型效果的提升微乎其微;然而在与复杂任务数据集结合在一起使用时,对模型效果的提升十分显著。而如果只添加复杂任务数据集进行训练,容易使模型出现基础的交互错误。

策略消融训练实验则检测了训练策略的不同阶段(SFT, DPO, RFT)对模型效果的影响。

● DPO训练使模型能够从自身的错误进行学习,在SFT的基础上进一步提高模型效果

● RFT使模型通过针对不同领域的数据进行针对性训练,在不同领域的测试效果达到显著提升

AutoWebGLM的未来发展方向

AutoWebGLM的未来发展方向可以聚焦于核心性能的优化,以提升其在复杂网页浏览任务中的适应性和准确性。现实生活中的网页,尤其是很多提供广告和产品图片的购物网站,对智能体多模态方向的理解能力要求较高。AutoWebGLM可以考虑增强多模态识别和交互策略来应对动态网络环境。另外一个可以优化的点在于对弹出窗口和真人用户验证的处理,如果访问的网页弹出了用户登录窗口或者要求用户验证人类身份的对话框,智能体能否正确处理这些问题仍然是一个不小的挑战。

图片

图9. AutoWebGLM的测试示例:访问了带有弹窗的网站

AutoWebGLM的研发可以为其他网页浏览智能体提供宝贵的参考,特别是在数据集构建方法和选择的训练策略上。通过公开自己的源代码,AutoWebGLM将促进整个领域的技术进步和知识共享。

AutoWebGLM还可以进一步优化它的自然语言处理能力,以理解更复杂抽象的用户指示。在应用场景方面,AutoWebGLM的未来服务范围,能够涵盖电子商务、在线教育、客户服务等多个领域。其智能化的网页导航能力和对历史交互数据的理解能力,能够为不同领域的用户提供个性化的网络体验,同时为企业提供自动化的网页导览解决方案,提高效率并降低成本。随着技术的不断发展,AutoWebGLM有潜力成为网络自动化领域的标杆,推动智能网页浏览向更高水平发展。

参考文献

Xiang Deng, Yu Gu, Boyuan Zheng, Shijie Chen, Samuel Stevens, Boshi Wang, Huan Sun, & Yu Su. (2023). Mind2Web: Towards a Generalist Agent for the Web.

Evan Zheran Liu, Kelvin Guu, Panupong Pasupat, Tianlin Shi, & Percy Liang (2018). Reinforcement Learning on Web Interfaces using Workflow-

B. E. (2023, April 20). John Schulman - Reinforcement Learning from Human Feedback: Progress and Challenges. YouTube. 

Hanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, & Jie Tang. (2024). AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent.

T. (n.d.). GitHub - THUDM/AutoWebGLM. Git

  • 13
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值