下载PDF或查看论文,请点击:LlamaFactory - huggingface daily paper - 每日论文解读 | LlamaFactory | LlamaFactory
摘要
最近在大型多模态模型(LMMs)方面的成功,激发了能够自主完成复杂网络任务的智能体应用的巨大潜力。尽管开源的LMM智能体在离线评估基准测试中取得了显著进展,但它们在更现实的在线环境中的表现仍然与人类水平相去甚远。一个关键瓶颈是缺乏跨各个领域的大量且多样化的轨迹级数据集,这些数据集的收集成本高昂。在这篇论文中,我们通过开发一个可扩展的配方,合成迄今为止最大、最多样化的轨迹级数据集来解决这一挑战,该数据集包含超过94K个成功的多模态网络轨迹,涵盖了49K个独特的URL、720K个截图和3300万个网络元素。特别是,我们利用广泛的网络探索和优化来获取多样化的任务意图。平均成本为每条成功的轨迹28美分,这使得它对社区中的广大用户来说都是负担得起的。利用这个数据集,我们训练了Explorer,一个多模态网络智能体,并在Mind2Web-Live、Multimodal-Mind2Web和MiniWob++等离线和在线网络智能体基准测试中展示了强大的性能。此外,我们的实验突出了数据扩展作为提高网络智能体能力的关键驱动因素。我们希望这项研究能够使基于LMM的大规模智能体研究更加易于接近。
一句话总结
该论文提出了一种可扩展的Web轨迹数据合成方法,通过