WebAgent-基于大型语言模型的代理程序

最新推荐文章于 2024-08-16 20:22:23 发布

AI 研习所

最新推荐文章于 2024-08-16 20:22:23 发布

阅读量1.3k

点赞数

分类专栏： AIGC 人工智能大模型训练文章标签：人工智能

本文链接：https://blog.csdn.net/specssss/article/details/132007009

版权

文章介绍了LLM在解决自然语言任务中的应用，尤其是在网络导航中的挑战。WebAgent是一个结合了Flan-U-PaLM和HTML-T5的解决方案，通过规范化的网络操作和HTML文档处理来改善导航任务执行。实验表明，这种方法使成功率提高了50%以上，并在MiniWoB基准上超越了现有最佳方法14.9%。

摘要由CSDN通过智能技术生成

大型语言模型（LLM）可以解决多种自然语言任务，例如算术、常识、逻辑推理、问答、文本生成、交互式决策任务。最近，LLM在自主网络导航方面也取得了巨大成功，代理程序助HTML理解和多步推理的能力，通过控制计算机或浏览互联网进行一系列计算机操作，以满足给定的自然语言指令。

然而，现实世界的网站上的网络导航仍然存在以下问题：

（1）缺乏预定义的操作空间。

（2）HTML观察比模拟器更长。

（3）LLM缺乏HTML领域知识。

考虑到现实世界网站的开放性和指令的复杂性，提前定义适当的操作空间是具有挑战性的。此外，尽管有几项研究认为通过指令微调或根据人类反馈进行强化学习可以改善对HTML的理解和网络导航的准确性，但最近的LLM并不总是具有处理HTML文档的最优设计。大多数LLM的上下文长度与现实网站上HTML的平均标记相比更短，并且没有采用特定的HTML领域知识。

针对上述问题，研究人员引入了WebAgent，这是一个由LLM驱动的代理程序，可以通过组合规范化的网络操作在现实网站上根据用户指令完成导航任务。WebAgent通过将指令分解为规范化的子指令来进行规划，将长HTML文档转化为与任务相关的片段，并通过生成的Python程序对网站进行操作。研究人员将两个LLM组合成WebAgent：Flan-U-PaLM用于基于代码的生成，以及新引入的HTML-

最低0.47元/天解锁文章

AI 研习所

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
WebAgent-基于大型语言模型的代理程序

WebAgent通过将指令分解为规范化的子指令来进行规划，将长HTML文档转化为与任务相关的片段，并通过生成的Python程序对网站进行操作。此外，尽管有几项研究认为通过指令微调或根据人类反馈进行强化学习可以改善对HTML的理解和网络导航的准确性，但最近的LLM并不总是具有处理HTML文档的最优设计。最近，LLM在自主网络导航方面也取得了巨大成功，代理程序助HTML理解和多步推理的能力，通过控制计算机或浏览互联网进行一系列计算机操作，以满足给定的自然语言指令。（1）缺乏预定义的操作空间。
复制链接

扫一扫

专栏目录