主要内容
- 研究背景:大语言模型(LLMs)在旅行规划中展现出潜力,但在处理时空合理性方面存在不足。现有基准测试聚焦于基本规划有效性,忽略了路线效率、兴趣点(POI)吸引力和实时适应性等关键方面。
- 相关工作:介绍了基于LLM的旅行规划基准测试、LLM旅行规划代理以及检索增强生成(RAG)的研究现状,指出当前研究在旅行规划任务中缺乏考虑实时知识集成和多目标解决的基准测试。
- TP - RAG基准测试
- 问题定义:明确旅行规划问题中查询、POI和轨迹的定义,给定用户查询、相关POI候选集和轨迹,由LLM代理生成旅行计划。
- 数据集构建:从百度搜索引擎采样现实查询,利用LLMs和搜索引擎收集POI及其时空属性,从网页文档提取轨迹并进行脱敏处理,通过LLM和人工评估进行质量控制。数据集包含2348个旅行查询、85575个POI和18784条轨迹。
- 评估指标:采用基于规则的指标和LLM作为评判的技术,从常识、空间、时间、POI语义和查询相关性五个维度评估旅行计划。
- 实验