TP-RAG: Benchmarking Retrieval-Augmented Large Language Model Agents for Spatiotemporal-Aware

主要内容

  1. 研究背景:大语言模型(LLMs)在旅行规划中展现出潜力,但在处理时空合理性方面存在不足。现有基准测试聚焦于基本规划有效性,忽略了路线效率、兴趣点(POI)吸引力和实时适应性等关键方面。
  2. 相关工作:介绍了基于LLM的旅行规划基准测试、LLM旅行规划代理以及检索增强生成(RAG)的研究现状,指出当前研究在旅行规划任务中缺乏考虑实时知识集成和多目标解决的基准测试。
  3. TP - RAG基准测试
    • 问题定义:明确旅行规划问题中查询、POI和轨迹的定义,给定用户查询、相关POI候选集和轨迹,由LLM代理生成旅行计划。
    • 数据集构建:从百度搜索引擎采样现实查询,利用LLMs和搜索引擎收集POI及其时空属性,从网页文档提取轨迹并进行脱敏处理,通过LLM和人工评估进行质量控制。数据集包含2348个旅行查询、85575个POI和18784条轨迹。
    • 评估指标:采用基于规则的指标和LLM作为评判的技术,从常识、空间、时间、POI语义和查询相关性五个维度评估旅行计划。
  4. 实验
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值