WebAgent-基于大型语言模型的代理程序

文章介绍了LLM在解决自然语言任务中的应用,尤其是在网络导航中的挑战。WebAgent是一个结合了Flan-U-PaLM和HTML-T5的解决方案,通过规范化的网络操作和HTML文档处理来改善导航任务执行。实验表明,这种方法使成功率提高了50%以上,并在MiniWoB基准上超越了现有最佳方法14.9%。
摘要由CSDN通过智能技术生成

大型语言模型(LLM)可以解决多种自然语言任务,例如算术、常识、逻辑推理、问答、文本生成、交互式决策任务。最近,LLM在自主网络导航方面也取得了巨大成功,代理程序助HTML理解和多步推理的能力,通过控制计算机或浏览互联网进行一系列计算机操作,以满足给定的自然语言指令。


然而,现实世界的网站上的网络导航仍然存在以下问题:

(1)缺乏预定义的操作空间。

(2)HTML观察比模拟器更长。

(3)LLM缺乏HTML领域知识。

考虑到现实世界网站的开放性和指令的复杂性,提前定义适当的操作空间是具有挑战性的。此外,尽管有几项研究认为通过指令微调或根据人类反馈进行强化学习可以改善对HTML的理解和网络导航的准确性,但最近的LLM并不总是具有处理HTML文档的最优设计。大多数LLM的上下文长度与现实网站上HTML的平均标记相比更短,并且没有采用特定的HTML领域知识。


cbeb3fd9501d63d1a68a3b4e99be0e3f.jpeg


针对上述问题,研究人员引入了WebAgent,这是一个由LLM驱动的代理程序,可以通过组合规范化的网络操作在现实网站上根据用户指令完成导航任务。WebAgent通过将指令分解为规范化的子指令来进行规划,将长HTML文档转化为与任务相关的片段,并通过生成的Python程序对网站进行操作。研究人员将两个LLM组合成WebAgent:Flan-U-PaLM用于基于代码的生成,以及新引入的HTML-

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值