【每日论文】Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents

最新推荐文章于 2025-05-05 09:34:57 发布

WHATEVER_LEO

最新推荐文章于 2025-05-05 09:34:57 发布

阅读量760

点赞数 30

分类专栏：每日论文文章标签：机器学习人工智能深度学习神经网络自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40240616/article/details/145720691

版权

下载PDF或查看论文，请点击：LlamaFactory - huggingface daily paper - 每日论文解读 | LlamaFactory | LlamaFactory

摘要

最近在大型多模态模型（LMMs）方面的成功，激发了能够自主完成复杂网络任务的智能体应用的巨大潜力。尽管开源的LMM智能体在离线评估基准测试中取得了显著进展，但它们在更现实的在线环境中的表现仍然与人类水平相去甚远。一个关键瓶颈是缺乏跨各个领域的大量且多样化的轨迹级数据集，这些数据集的收集成本高昂。在这篇论文中，我们通过开发一个可扩展的配方，合成迄今为止最大、最多样化的轨迹级数据集来解决这一挑战，该数据集包含超过94K个成功的多模态网络轨迹，涵盖了49K个独特的URL、720K个截图和3300万个网络元素。特别是，我们利用广泛的网络探索和优化来获取多样化的任务意图。平均成本为每条成功的轨迹28美分，这使得它对社区中的广大用户来说都是负担得起的。利用这个数据集，我们训练了Explorer，一个多模态网络智能体，并在Mind2Web-Live、Multimodal-Mind2Web和MiniWob++等离线和在线网络智能体基准测试中展示了强大的性能。此外，我们的实验突出了数据扩展作为提高网络智能体能力的关键驱动因素。我们希望这项研究能够使基于LMM的大规模智能体研究更加易于接近。

一句话总结

该论文提出了一种可扩展的Web轨迹数据合成方法，通过

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。