MapQA : 开放领域地理空间问答基于地图数据

Paper易论

已于 2025-03-30 07:36:09 修改

阅读量1.1k

点赞数 33

文章标签：人工智能 ai 自然语言处理

于 2025-03-30 07:35:20 首次发布

本文链接：https://blog.csdn.net/u013524655/article/details/146715304

版权

地理空间问答（QA）是导航和兴趣点（POI）搜索中的基本任务。尽管现有的地理空间QA数据集存在，但它们在规模和多样性方面受到限制，通常仅依赖于地理实体的文本描述，而未考虑其几何形状。扩大地理空间QA数据集的主要挑战在于地理空间关系的复杂性，这需要整合空间结构、拓扑依赖以及多跳推理能力，而大多数基于文本的QA数据集缺乏这些能力。为解决这些限制，我们引入了 MapQA ，这是一个新颖的数据集，不仅提供了问题-答案对，还包含了问题中引用的地理实体的几何信息。 MapQA 使用SQL查询模板从OpenStreetMap（OSM）中提取问题-答案对，研究区域为南加州和伊利诺伊州。它由3,154个QA对组成，涵盖九种需要地理空间推理的问题类型，如邻里推断和地理实体类型识别。与现有数据集相比， MapQA 扩展了地理空间问题类型的数量和多样性。我们探索了两种方法来应对这一挑战：（1）基于检索的语言模型，通过嵌入相似性对候选地理实体进行排名；（2）大型语言模型（LLM），根据自然语言问题和地理实体属性生成SQL查询，并在OSM数据库上执行。我们的研究结果表明，基于检索的方法能够有效捕捉诸如“接近度”和“方向”等概念，但在需要明确计算的问题（例如距离计算）上表现不佳。LLM（例如GPT和Gemini）在生成单跳推理的SQL查询方面表现出色，但在多跳推理方面面临挑战，突显了推进地理空间QA系统的关键瓶颈。该数据集可在以下网址公开获取： https://github.com/knowledge-computing/MapQA-dataset

开放领域问答（QA）是一项基础的自然语言处理（NLP）任务，旨在基于大型语料库中的参考信息提供答案。 (Chen等人，2017) 在开放领域QA系统所解决的各种类型的问题中，地理空间问题尤为突出。这些问题要求系统对地理空间实体（例如明尼阿波利斯、英国、大峡谷）进行定位和解释，对空间量（例如距离、方向）进行推理，并理解空间关系（例如包含、邻接、接近度、相交）。 (Mai等人，2021)

尽管地理空间问题在传统开放领域QA基准测试中被较少关注，但解决这些问题对于增强地理信息系统（GIS）和位置感知服务中的自然语言接口，以及支持高级地理分析任务（例如土地覆盖分类和绿色密度估计）至关重要。 (Scheider等人，2021) 此外，强大的地理空间QA系统使用户能够通过交互方式访问、获取和整理来自地图、空间数据库和空间感知任务机器人的丰富地理知识。现有的QA数据集主要关注一般知识或特定领域的问答（例如Freebase数据库），但缺乏对地理空间推理的关注，特别是空间关系。旅游问题数据集 (Contractor等人，2019) 提供了一个基于旅游评论衍生的问题推荐地理实体的数据集。然而，该数据集中实体类型的覆盖率非常有限，仅包含三个类别：酒店、景点和餐厅。Contractor等人 (Contractor等人，2021) 构建了一个小型POI推荐数据集，旨在评估模型推断距离关系的能力。该数据集将实体关系标记为三类：（1）“靠近集合X”，（2）“远离集合X”，以及（3）两者的组合。然而，这些标签没有提供精确的数值距离约束，使得空间推理评估较为粗略。还有多模态数据集（例如MMMU (Yue等人，2024) 和MuirBench (Wang等人，2024) ），其中包含地理问题作为其中一个学科。虽然答案可以从输入图像（如卫星图像、地图或图表）中得出，但这些问题并未始终聚焦于地理实体，也未涉及地理空间关系。与我们的工作最相关的数据集是GeoQuestions201 (Punjani等人，2018) 和GeoQuestions1089 (Kefalidis等人，2023) ，因为它们包含涉及语义类型、方向推理和距离估算的问题。然而，我们的数据集 MapQA 在几个关键方面有所不同。首先， MapQA 显著更大，包含3,154个QA对和175种候选地理实体类型，而GeoQuestions201仅有201个QA对和28种地理实体类型（例如酒店、教堂），GeoQuestions1089则有1,089个QA对。其次， MapQA 和GeoQuestions1089包含关于确切距离（例如50米内）和相对距离（例如哪个更近）的问题，而GeoQuestions201仅包含相对距离问题。此外，虽然GeoQuestions201和 MapQA 均来源于OpenStreetMap（OSM）数据库，但GeoQuestions1089则是从YAGO2Geo知识图谱构建的。最后， MapQA 利用大型语言模型（LLMs）来增强问题的多样性和表达方式（例如，“哪个地方更近？” vs. “哪个地点更靠近？”），模拟人们在现实场景中提出查询的多种方式。这种语言变化增加了 MapQA 的复杂性，使其成为评估地理空间问答系统的更具挑战性的基准。

为了推动地理空间QA的研究，我们介绍了 MapQA ，这是我们的首个贡献，一个新颖的开放领域QA基准。与传统的开放领域QA任务不同，系统检索和解释语义相关的文本段落， MapQA 依赖广泛的地理空间地图数据作为参考信息。要回答 MapQA 中的问题，QA系统必须识别既在空间上又在语义上与查询相关的参考地图数据。此外，这些问题往往需要结合语义和地理空间关系的推理链。例如，问题“离星巴克咖啡最近的公交站是哪个？”高度依赖于多个不同的“星巴克咖啡”位置的存在 (Mai等人，2019) 。一个强大的地理空间QA数据集应包括各种问题类型，包括邻近度、方向性和地理实体的语义分类。此外，数据集必须包含基于上下文的实体消歧问题（例如区分多个“星巴克”位置），以及具有多个可能答案的问题（例如“Northwestern Hospital”的设施类型可以被分类为“设施”和“医疗保健”）。 [tab:QuestionTemplates] 概述了数据集中包含的九种不同类型的问题。每种问题类型都设计为涵盖一个或多个推理步骤，涵盖各种空间概念，例如设施类型和距离，从而允许全面评估地理空间推理。

除了介绍 MapQA 数据集之外，我们的第二个贡献是对解决 MapQA 问题设置的两类方法进行了系统的基准测试。第一类方法专注于神经检索。除了评估标准的密集检索器（如DPR (Karpukhin等人，2020) ），我们还探索了集成地理空间接地语言模型的变体 (Li等人，2023) ，该模型联合编码文本描述和地理坐标以增强地理空间推理。这种基于检索的方法通过比较候选地理实体与其给定问题的嵌入相似性来进行排名。第二类方法基于文本到SQL生成，其中大型语言模型（如GPT、LLaMA）将自然语言问题转换为可执行的PostgreSQL查询 (Dong等人，2023) 。然后使用PostGIS引擎执行这些查询，从地理空间数据库中检索答案。然而，这种方法依赖于对数据库模式的先验知识，包括表和列名；否则，不正确或随机生成的属性名称可能会显著影响查询的可执行性。

在 MapQA 中，我们使用南加州和伊利诺伊州作为样本研究区域，以突出地理空间推理的挑战。南加州地区包括606,773个实体，跨越621种设施类型，而伊利诺伊州地区涵盖92,415个实体，跨越175种设施类型。 MapQA 包括3,154个问题-答案对，捕捉九种地理关系，上述的699K地理实体和700种设施类型作为候选答案。生成问题-答案对的过程可以轻松扩展到其他地区，我们还提供了一个用于生成更多数据的脚本。实验结果表明，基于检索的模型可以将设施类型与地理实体关联起来，并理解接近度和方向的概念，尽管在预测距离的确切值方面存在局限性。（这种局限性源于距离是一个连续变量，而基于检索的方法本质上是为了从一组离散的候选实体中选择，因此无法直接将距离计算公式化为基于检索的问题，使得此类模型难以进行精确的数值估算。）此外，经过适度微调后，这种方法可以在未见过的研究区域上表现良好。第二种方法涉及使用大型语言模型（LLMs）根据问题和地理实体属性生成SQL查询，然后在OSM数据库上执行。我们的研究表明，像GPT和Gemini这样的LLMs在生成只需要一跳推理的SQL查询时非常强大。

2 MapQA 数据集

2.1 问题陈述

创建该数据集的动机是填补需要空间推理才能准确回答问题的问答数据集之间的空白。地理空间问答通常需要多步推理，而 MapQA 旨在模拟需要理解距离、方向和地理实体类型的真实世界场景。例如，要回答问题“South Park Brewing 50米范围内的酒吧有哪些？”，模型必须首先检索靠近South Park Brewing的地理实体，然后推断这些实体的类型并排除非酒吧的地理实体。此外，我们还包括了只需单步推理的问题，如“Chase的设施类型是什么？”以评估模型是否能有效学习和应用语义类型信息。

MapQA 数据集包括三种类型的答案：1）地理实体名称（例如“哪个餐馆靠近Luther Burbank Savings？”）和2）设施类型（例如“Port Police提供的设施是什么？”）3）距离（例如“Brentwood和Coquitlam之间的距离是多少？”）。对于前两种类型，我们收集了研究区域内所有OSM地理实体和设施作为基于检索模型的候选答案，并通过比较是否正确检索到地理实体或设施类型来进行评估。对于第三种类型，我们执行人工验证的SQL查询以获得真实距离值。评估是通过计算预测值与真实值之间的距离差异来进行的。如果偏差小于100米，我们就认为预测是正确的答案。

2.2 数据收集

为了生成问题-答案对，我们利用了OpenStreetMap（OSM）上丰富的结构化地理空间数据。OpenStreetMap（OSM）是一个免费访问的地理数据库，由专门的志愿者社区通过开放式协作不断更新和管理。OSM以其众包地理空间信息和广泛的地理覆盖范围而闻名，是我们任务中不可或缺的主要数据来源。OSM提供了精心整理的各类设施、地理地标和地理坐标的详细信息。

为了从OSM数据生成问题-答案对，我们采用了一种框架，不同于传统的以人为监督的方法，能够以更高效和成本效益的方式获取标注数据，同时保持可接受的误差范围。不需要依赖大量的训练注释员，领域专家设计启发式标注函数（LFs）以重新利用经过验证的结构化知识，将其转换为适合次级任务（即问答）的格式。因此，主要挑战在于设计这些启发式规则，以查询现有知识并将结果转换为适合手头任务的格式。

我们采用了九种精心设计的问题模板，总结见 [tab:QuestionTemplates] ，每种模板旨在生成多样化的问题-答案实例并评估各种空间推理方面。这些问题的基础空间概念列在最后一列。为了增强语言多样性，我们利用大型语言模型（如GPT）生成每个模板的同义改写版本，通过修改措辞（例如将 is adjacent to 替换为 neighbors ）。这种方法增加了数据集的变化性，提高了其在更广泛的自然语言场景中训练和评估模型的鲁棒性。

属性关联 对于诸如服务推荐（例如，查找附近的加油站或餐馆）和理解地理特征的功能或用途等任务至关重要。像“[location]处有什么设施？”和“[location] 50米范围内有哪些[设施]？”这样的问题评估模型将特定属性或设施与特定位置关联的能力。前者要求回答设施类型，而后者需要识别地理实体本身。
空间和方向接近度 ：了解地理实体之间的接近度对于路由、导航和城市规划等应用至关重要。我们的工作强调地理实体之间空间和方向接近度的重要性。例如，我们评估模型是否能够确定两个候选者中哪一个更靠近给定位置（例如，“ChargePoint更靠近[location A]还是[location B]？”），以及模型是否能够进行方向推断（例如，[location]西侧最近的[设施]是什么？）。此外，我们将此评估扩展到包括街道等线状几何形状，构造像“[location A]和[location B]的[设施]交汇点最近的是什么？”这样的问题。
距离计算 ：准确测量地理实体之间的距离对于推荐最佳路线、评估可达性和定义服务区等任务至关重要。“[location A]到[location B]有多远？”这样的问题直接要求计算两个地理点之间的距离，答案是精确的距离值。

为了限制从OSM提取的数据的大小和范围，我们专注于南加州和伊利诺伊州地区。 1 例如，使用模板 "What {amenity} is adjacent to {location_name}?" 生成实例的过程开始于建立与数据库的连接，并从预定义池中选择随机的设施类型和地点名称作为种子。这确保数据集包含各种基于地点的查询。接下来，对于每个选定地点，SQL代码查询数据库以找到所有给定类型且距离参考地点50米内的设施，使用 PostGIS 空间函数。为了避免冗余条目，参考地点本身被排除在结果之外。如果指定半径内未找到匹配的设施，则跳过该地点，以在达到10个空设施后保持有意义的问题-答案对。最后，提取的数据被格式化为结构化输出，如 CSV 和 JSON ，便于其集成到地理空间问答数据集中。这种方法利用OSM的结构化地理空间知识和 PostGIS 空间索引，高效生成多样化、高质量的问题，同时保持空间相关性。

2.3 数据集统计

最终数据集包括3,154个问题-答案对，按类型分类详见 [tab:QuestionTemplates] 。对于南加州（ SouthCal ）地区，其中包括2,206对，80%分配用于训练，20%用于测试。在模型训练期间，训练集进一步分为< span class="smallcaps">train 和< span class="smallcaps">val 子集，比例为80/20。该数据集包括训练问题中的644个地理实体和测试问题中的162个地理实体。 Illinois 地区作为零样本评估集，包含948个QA对和348个地理实体。 [fig:entity-distribution] 可视化了两个研究区域中地理实体的地理分布， 1 展示了设施类型分布。

图表显示了 SouthCal 和 Illinois 研究区域中答案的设施类型分布， SouthCal 包含73种不同的设施类型， Illinois 包含29种。在基于检索模型的训练过程中，总共使用了175种设施类型作为候选选项。由于空间限制，饼图未在其标签中包含所有设施类型。有关答案中引用的所有设施类型的完整列表，请参阅 7 。

3 MapQA基线方法

我们开发了四种基线模型来评估数据集，其中三种使用从DPR派生的基于检索的QA方法，最后一种模型使用大型语言模型（LLM）进行文本到SQL的设置。

3.1 密集段落检索

密集段落检索（DPR）是一种基于检索的模型，专为开放领域问答设计。它通过段落编码器对文本段落进行编码并存储在语料库中。当接收到查询时，问题编码器生成其嵌入向量，然后用于从语料库中检索最相关的段落。在我们对DPR的改编中，我们将段落编码器重新用于编码地理实体名称（或设施类型）作为候选答案，而不是文本段落。对于 SouthCal 地区，我们构建了一个包含超过600,000个地理实体和600多种设施类型的候选池。在地理实体推荐的训练过程中，正向上下文对应于正确的地理实体答案，而负向上下文则从候选池中随机抽样，并补充以 难负例 ，即目标实体附近的空间邻近地理实体。在检索过程中，候选池充当语料库，其特征嵌入用于检索与查询最相关的< span class="math inline">\(k\) 个候选对象。对于设施推荐问题，程序基本相同，只是负向上下文仅由从池中随机抽样的设施组成。在 Illinois 地区，地理实体池包含超过92,000个候选对象，而设施池包含175种类别。

除了BERT编码器外，我们还探索了使用地理空间语言模型，即GeoLM (Li et al. 2023) 作为编码器。DPR和DPR-GeoLM的主要区别在于GeoLM利用空间信息来辅助编码问题和段落。GeoLM对句子中地理实体的经纬度信息进行编码。具体来说，GeoLM使用分词文本和构造的坐标句子作为输入，长度相同。文本句子和经纬度句子的嵌入分别计算，然后合并生成最终嵌入。需要注意的是，GeoLM仅支持表示点几何，因此其在地理问答中的应用仅限于这类几何。已经开展了能够表示所有几何的工作 (Mai等人，2023) ，但尚未应用于自然语言问答。

3.2 文本到SQL

在文本到SQL模型中，我们使用多个大型语言模型，例如GPT-4 (OpenAI 2023) 、LLaMA-3 (Touvron等人，2023) 和Gemini (Team等人，2023) 来生成SQL查询，以从包含原始问题及一般信息的自然语言提示中提取答案（ 1 ）。然后我们在服务器上运行生成的SQL查询，提取结果，并将其与真实值进行比较。

为了生成自然语言提示，我们采用了 1 中概述的模板。该模板定义了OSM表的结构并提供了必要的上下文信息，如给定地理实体关联的OSM-ID。模板由三个主要部分组成：

表模式和结构： 第一部分全面描述了“planet_osm_point”表，包括其列、列类型以及每列存储的数据的简要说明。它还提供了有关表的一般上下文信息以及每列作用的附加见解。
自然语言问题： 第三部分以自然语言形式呈现问题，不作任何修改。
上下文信息： 最后一部分为模型生成额外的上下文信息，格式为一系列句子，遵循模板：“ location_name 的OSMID是 osm_id 。” 这种上下文信息有助于模型通过提供实际的OSM标识符来有效构建查询。
我们选择大型语言模型（LLMs）而非专用的文本到SQL模型，主要有两个原因。首先，尽管现有的文本到SQL模型，如基于LSTM的方法（例如Seq2SQL (Zhong, Xiong, and Socher 2017) 、SQLNet (Xu, Liu, and Song 2017) ) 和基于变换器的模型（例如BERT-to-SQL (B. Wang等，2019; lin-etal-2020-bridging? ; deng-etal-2021-structure? ) 、T5-to-SQL ( xie-etal-2022-unifiedskg? ) ) 在解析标准SQL查询（例如 SELECT , WHERE ）和更高级的聚合子句（例如 GROUP BY ）方面表现出色，但在需要解析几何形状和生成PostGIS函数（如 ST_WITHIN , ST_X , ST_Y , 和 ST_Transform ）的地理空间查询方面表现不佳。因此，这些模型需要大量微调才能有效地处理 MapQA 数据集。其次，LLMs在广泛的多样化文本数据上进行了训练，这增强了它们理解复杂查询和生成准确地理空间语句的能力。它们的灵活性使它们能够适应新任务和输入提示，使其成为 MapQA 任务的更好选择。
4 实验
在本节中，我们基准测试了在 3 中概述的两组模型的性能。第一组包括已建立的检索骨干网，具体为Dense Passage Retrieval（DPR）模型，采用两种编码器架构：BERT和GeoLM。第二组包括一系列在文本到SQL设置中应用的大型语言模型（LLMs）。对于LLMs，我们基准测试了GPT-3.5-turbo、GPT-4o (OpenAI 2023) 、Gemini-1.5-flash (Team等人，2023) 、LLaMA-3-8B-Instruct (Dubey等人，2024) 和Mistral-7B-Instruct-v0.3 (Jiang等人，2023) 。
4.1 Dense Passage Retrieval
训练： 我们在 SouthCal 数据集上训练了两种Dense Passage Retrieval（DPR）变体，分别是DPR-BERT和DPR-GeoLM，并在两种不同的设置下评估它们的性能：（1） 区域内 评估，模型在南加州地区的保留集上进行测试；（2） 跨区域 评估，模型以零样本方式在伊利诺伊州地区进行测试。根据预期输出的不同，问题进一步分为两类：（1）输出为地理实体的问题和（2）输出为设施名称的问题。为解决这些差异，我们分别使用DPR-BERT和DPR-GeoLM针对每种输出类型训练单独的模型。然而，基于DPR的模型面临两个关键限制：（1）难以解决涉及线状几何图形的地理实体的问题；（2）难以处理输出为距离值的问题，因为这些问题无法被简单地框架为检索问题。由于这些限制，第8类和第9类问题被排除在DPR实验之外。
候选构建： 根据 (Karpukhin等人，2020) 中概述的方法，我们在训练期间使用正负采样技术生成候选对象。对于每个问题，我们创建正向、负向和难负向候选对象。正向候选对象基于BM25分数选择，识别出与问题名称相对应的排名最高的地理实体。相比之下，负向和难负向候选对象则通过三种方法组合生成：(1) 随机：从地理空间数据库中随机选择的候选对象；(2) BM25：通过BM25检索到的未提供正确答案但与大多数问题标记一致的顶级候选对象；(3) 黄金：来自训练集中其他问题的地理实体答案。难负向候选对象特别通过方法(2)识别，其中我们选择与输入问题相关的BM25分数最高的候选对象。为了编译负向候选对象，我们同时使用方法(1)和(3)：方法(1)贡献那些不在正向或难负向列表中的随机候选对象，而方法(3)提供来自训练集中其他问题的正向答案，这些答案被重新用作负向。按照 (Karpukhin等人，2020) 的策略，我们实施批量内负向训练，允许我们从同一批次内的其他问题中选择黄金负向候选对象。这种方法提供了一种简单且内存高效的重用已在批次中存在的候选对象的方法。此外，方法(1)确保提取那些不与正向和难负向候选对象列表重叠的随机候选对象，从而进一步丰富负向候选对象池。

在文本到SQL实验中，各LLM生成的畸形SQL脚本（例如，包含语法错误的脚本）的百分比。
结果： [tab:result_socal] 显示了第一种设置——区域内评估的结果。DPR-BERT和DPR-GeoLM在不同问题类型上的表现各异。对于第4类问题，两种编码器都表现得非常出色，DPR-BERT达到87.50%（R@50），DPR-GeoLM达到82.14%。这表明这两种编码器都有能力将语义类型（例如设施类型）信息与地理实体关联起来。GeoLM在大多数其他问题类型上超越了BERT，尤其是在第2类（R@50: 38.10% vs. 4.76%）、第3类（R@50: 20.45% vs. 22.73%）和第5类（R@50: 43.48% vs. 26.09%）上表现更为突出。这突显了GeoLM在理解确切距离概念（例如50米，100米）方面的优越能力。对于第1类问题，DPR-BERT和DPR-GeoLM的表现仍然较低，DPR-BERT在所有召回指标上始终得分2.08%，而DPR-GeoLM在R@5和R@10上略有改善（4.17%），尽管分数仍然相对较低。这表明两种模型在第1类问题上面临挑战，这些问题需要正确推断相邻概念和设施类型。对于在零样本 Illinois 数据集上的跨区域评估（见 [tab:result_il] ），结果显示与域内 SouthCal 结果相比性能相对稳定。这种稳定性表明，一旦训练好以在特定区域内编码空间信息的检索模型，就可以推广到未见过的地理区域。总体而言，DPR-GeoLM在更广泛的问题类型上表现出更一致的性能，突显了其在地理空间问答中的鲁棒性。
4.2 使用LLMs进行文本到SQL转换
为了基准测试文本到SQL模型在 MapQA 数据集上的性能，我们报告准确性作为评估指标，代表生成的答案与真实数据匹配的百分比。为了考虑和区分畸形SQL的情况（例如，语法错误），我们还报告了此类实例的百分比。
结果： [tab:result_llm_socal] 展示了各种文本到SQL模型在 SouthCal 数据集上的准确性结果。第4类问题是一个特别突出的类别，除了LLAMA外，所有模型都在此类别中达到了最大可能分数或接近最大可能分数，Gemini、GPT-3.5和GPT-4o均达到100.00%，Mistral紧随其后，达到99.39%。这种高表现可归因于生成SQL查询所需的相对简单的一步推理，使得LLMs更容易处理。GPT-3.5和GPT-4o在多种问题类型上持续优于其他模型，GPT-4o尤其在第5类（29.09%）和第6类（37.20%）中表现优异。这些问题类型涉及更复杂的空间谓词，如 ST_X 、 ST_Y 和 ORDER_BY ，突显了GPT-4o在复杂SQL查询生成方面的卓越能力。然而，第8类和第9类问题是最具挑战性的类别，大多数模型在产生准确结果方面都遇到了困难。我们对畸形SQL查询的分析显示在 2 中，表明这些类型在所有类别中具有最高的错误率。这表明，生成用于查找两个地理实体之间交点和计算距离的正确语法仍然是当前LLMs的重大挑战。这些错误强调了在文本到SQL任务中处理复杂空间关系和高级地理空间推理所面临的持续困难。
5 相关工作
5.1 地理空间NLP
近年来，研究人员越来越多地将自然语言处理（NLP）模型应用于地理空间领域。许多命名实体识别（NER）模型 (Dernoncourt, Lee, and Szolovits 2017; devlin-etal-2019-bert? ; zhuang-etal-2021-robustly? ) 已被调整以解决地名检测 (Halterman 2017; Tao等人 2022) 和地名链接 (Grover等人 2010; Weissenbacher等人 2019; gritta-etal-2017-vancouver? ; gritta-etal-2018-melbourne? ) 的问题。通用NLP模型还被应用于地理空间关系提取 (Yu and Lu 2015) 。例如， J. Yang, Jia, 和Liu (2022) 设计了一个基于BERT架构的网络，将地理实体关系分类为14个不同类别。此外，兴趣点（POI）推荐和预测任务，如商店推荐和房价预测 (Gao等人 2022) ，也使用了经过微调的语言模型。然而，这些模型通常仅考虑地名的语境，忽略了关键的地理位置数据和与邻近实体的空间相关性。最近， Li等人 (2022) 训练了一个捕捉地理实体特征表示的地理空间上下文的语言模型，并随后扩展这项工作以实现地理空间接地的自然语言理解 (Li等人 2023) 。在本文中，我们证明了NLP模型可以有效地执行地理空间问答任务，其表现与领域特定模型相当。
5.2 开放领域问答
开放领域问答（QA）一直是自然语言处理（NLP）和信息检索（IR）研究中的一个重要领域，目标是开发能够在不受预定义领域限制的情况下，从知识源中检索相关信息以回答用户查询的系统。在过去十年中，发布了众多QA基准测试，反映了推进开放领域QA系统的日益增长的兴趣。著名的数据集，如HotPotQA (Z. Yang等人 2018) 、TriviaQA ( joshi-etal-2017-triviaqa? ) 、WebQA (Chang等人 2022) 和SearchQA (Dunn等人 2017) ，作为评估QA模型的关键资源。这些数据集涵盖了广泛的主题和问题类型，允许研究人员评估模型在各种领域的泛化能力。然而，这些基准的一个显著局限性在于它们缺乏对地理空间问题的关注，而这些问题在开放领域问答中提出了独特的挑战。地理空间问题涉及关于地点、距离和空间关系的查询，为开放领域问答系统带来了独特的挑战。本文通过开发专门设计用于地理空间查询的开放领域问答系统解决了这些挑战。
6 结论与未来工作
在这项工作中，我们通过引入 MapQA 解决了地理空间问答（QA）的独特挑战，这是一个从OpenStreetMap（OSM）派生的新颖数据集，包含来自两个不同区域（南加州和伊利诺伊州）的3,154个问题-答案对。我们的数据集涵盖各种地理空间推理任务，使其成为评估该领域QA系统的强大基准。我们还探索了两种主要方法：1）基于检索的方法和2）基于LLM的文本到SQL生成，以应对 MapQA 提出的地理空间QA挑战。总体而言， MapQA 标志着地理空间QA研究的重要进展，提供了一个具有挑战性和全面性的基准，可以推动该领域进一步发展。在未来，我们希望扩展地理空间关系，包括拓扑关系，如包含、接触和重叠。
7 附录
2 和 3 展示了答案中设施类型的完整列表及其出现次数。

张英山，纳朗·穆里丹，铃木·久雄，高云帆，和Bisk。2022年。 “WebQA：多跳和多模态问答。” https://arxiv.org/abs/2109.00590 。
Contractor，Danish，Shashank Goe
l，Mausam，和Parag Singla。2021年。 “联合空间文本推理以回答旅游问题。” 在 2021年网络会议论文集 中，1978–89。 Contractor，Danish，Krunal Shah，Aditi Partap，Parag Singla等。2019年。 “大规模使用旅游数据进行问答。” arXiv预印本 arXiv:1909.03527 。
Dernoncourt，Franck，Ji Young Lee，和Peter Szolovits。2017年。 “NeuroNER：基于神经网络的命名实体识别程序。” arXiv预印本 arXiv:1705.05487 。
董，徐梅，张超，葛宇航，毛玉涵，高云俊，陈鲁，林金树，和楼东芳。2023年。 “C3：用ChatGPT实现零样本文本到SQL。” https://arxiv.org/abs/2307.07306 。
Dubey，Abhimanyu，Abhinav Jauhri，Abhinav Pandey，Abhishek Kadian，Ahmad Al-Dahle，Aiesha Letman，Akhil Mathur等。2024年。 “Llama 3模型群。” arXiv预印本 arXiv:2407.21783 。
Dunn，Matthew，Levent Sagun，Mike Higgins，V. Ugur Guney，Volkan Cirik，和Kyunghyun Cho。2017年。 “SearchQA：通过搜索引擎增强的新问答数据集。” https://arxiv.org/abs/1704.05179 。
高云帆，熊芸，王思琦，和王海芬。2022年。 “GeoBERT：在兴趣点上进行地理空间表示学习的预训练。” 应用科学 12 (24): 12942。
Grover，Claire，Richard Tobin，Kate Byrne，Matthew Woollard，James Reid，Stuart Dunn，和Julian Ball。2010年。 “爱丁堡地理解析器在地理参考数字化历史收藏中的应用。” 皇家学会哲学汇刊 A：数学、物理和工程科学 368 (1925): 3875–89。
Halterman，Andrew。2017年。 “Mordecai：全文地理解析和事件地理编码。” 开源软件期刊 2 (9)。 https://doi.org/10.21105/joss.00091 。
Jiang，Albert Q，Alexandre Sablayrolles，Arthur Mensch，Chris Bamford，Devendra Singh Chaplot，Diego de las Casas，Florian Bressand等。2023年。 “Mistral 7B。” arXiv预印本 arXiv:2310.06825 。
Karpukhin，Vladimir，Barlas Oğuz，Sewon Min，Patrick Lewis，Ledell Wu，Sergey Edunov，Danqi Chen，和Wen-tau Yih。2020年。 “密集段落检索用于开放领域问答。” arXiv预印本 arXiv:2004.04906 。
Kefalidis，Sergios-Anestis，Dharmen Punjani，Eleni Tsalapati，Konstantinos Plas，Mariangela Pollali，Michail Mitsios，Myrto Tsokanaridou，Manolis Koubarakis，和Pierre Maret。2023年。 “使用GeoQuestions1089数据集评估地理空间问答引擎。” 在 国际语义网会议 中，266–84。Springer。
Kwiatkowski，Tom，Jennimaria Palomaki，Olivia Redfield，Michael Collins，Ankur Parikh，Chris Alberti，Danielle Epstein等。2019年。 “自然问题：问答研究基准。” 计算语言学协会会刊 7: 453–66。
李泽坤，Kim Jina，Chiang Yao-Yi，和陈木浩。2022年。 “SpaBERT：来自地理数据的预训练语言模型用于地理实体表示。” arXiv预印本 arXiv:2210.12213 。
李泽坤，Zhou Wenxuan，Chiang Yao-Yi，和陈木浩。2023年。 “ G eo LM ：为地理空间接地语言理解赋能的语言模型。” 在 2023年经验方法自然语言处理会议论文集 中，由Houda Bouamor，Juan Pino，和Kalika Bali编辑，5227–40。新加坡：计算语言学协会。 https://doi.org/10.18653/v1/2023.emnlp-main.317 。
Mai，Gengchen，Krzysztof Janowicz，Rui Zhu，Ling Cai，和Ni Lao。2021年。 “地理问答：挑战、独特性、分类及未来方向。” AGILE：GIScience系列 2: 8。
Mai，Gengchen，Chiyu Jiang，Weiwei Sun，Rui Zhu，Yao Xuan，Ling Cai，Krzysztof Janowicz，Stefano Ermon，和Ni Lao。2023年。 “迈向多边形几何的一般用途表示学习。” GeoInformatica 27 (2): 289–340。
Mai，Gengchen，Bo Yan，Krzysztof Janowicz，和Rui Zhu。2019年。 “使用具有明确空间知识图谱嵌入模型放松不可回答的地理问题。” 在。
OpenAI，R。2023年。 “GPT-4技术报告。” arXiv ，2303–08774。
Punjani，Dharmen，Kuldeep Singh，Andreas Both，Manolis Koubarakis，Iosif Angelidis，Konstantina Bereta，Themis Beris等。2018年。 “基于模板的链接地理数据问答。” 在 第12届地理信息检索研讨会论文集 中，1–10。
Rajpurkar，Pranav，Jian Zhang，Konstantin Lopyrev，和Percy Liang。2016年。 “Squad：100,000+文本理解机器的问题。” arXiv预印本 arXiv:1606.05250 。
Ratner，Alexander J，Christopher M De Sa，Sen Wu，Daniel Selsam，和Christopher Ré。2016年。 “数据编程：快速创建大型训练集。” 神经信息处理系统进展 29。
Scheider，Simon，Nyamsuren Enkhbold，Han Kruiger，和Xu Haiqi。2021年。 “使用GIS的地理分析问答。” 国际数字地球杂志 14 (1): 1–14。
Tao，Liufeng，Xie Zhong，许德鑫，马凯，邱秦军，潘盛勇，和黄波。2022年。 “通过自然语言处理和改进的BERT模型进行地理命名实体识别。” ISPRS国际地理信息杂志 11 (12): 598。
Gemini团队，Rohan Anil，Sebastian Borgeaud，Yonghui Wu，Jean-Baptiste Alayrac，Yu Jiahui，Radu Soricut等。2023年。 “Gemini：功能强大的多模态模型家族。” arXiv预印本 arXiv:2312.11805 。
Touvron，Hugo，Thibaut Lavril，Gautier Izacard，Xavier Martinet，Marie-Anne Lachaux，Timothée Lacroix，Baptiste Rozière等。2023年。 “Llama：开放且高效的基线语言模型（2023）。” arXiv预印本 arXiv:2302.13971 。
Wang，Bailin，Richard Shin，刘晓东，Oleksandr Polozov，和Matthew Richardson。2019年。 “Rat-Sql：关系感知模式编码和链接用于文本到Sql解析器。” arXiv预印本 arXiv:1911.04273 。
Wang，Fei，Fu Xingyu，Huang James Y，Li Zekun，Liu Qin，Liu Xiaogeng，Ma Mingyu Derek等。2024年。 “MuirBench：稳健的多图像理解全面基准。” arXiv预印本 arXiv:2406.09411 。
Weissenbacher，Davy，Arjun Magge，Karen O’Connor，Matthew Scotch，和Graciela Gonzalez。2019年。 “SemEval-2019任务12：科学论文中的地名解析。” 在 第13届国际语义评估研讨会论文集 中，907–16。
Xu，Xiaojun，刘昌，和Dawn Song。2017年。 “Sqlnet：无需强化学习生成结构化查询的文本到SQL解析器。” arXiv预印本 arXiv:1711.04971 。
Yang，Jiannan，Jia Hong，和Liu Hanbing。2022年。 “基于BERT模型的地理实体空间关系提取。” 在 物理学杂志：会议系列 中，2363:012031。1。IOP Publishing。
Yang，Zhilin，Qi Peng，Zhang Saizheng，Yoshua Bengio，William W. Cohen，Ruslan Salakhutdinov，和Christopher D. Manning。2018年。 “HotpotQA：多样化的、可解释的多跳问答数据集。” https://arxiv.org/abs/1809.09600 。
Yu，Li，和Lu Feng。2015年。 “一种基于在线百科全书的空间实体关系抽取引导算法。” 在 2015年第23届国际地理信息会议 中，1–5。IEEE。
Yue，Xiang，Ni Yuansheng，Zhang Kai，Zheng Tianyu，Liu Ruoqi，Zhang Ge，Samuel Stevens等。2024年。 “MMMU：一个面向专家通用人工智能的大规模多学科多模态理解和推理基准。” 在 IEEE/CVF计算机视觉与模式识别会议论文集 中，9556–67。
Zhong，Victor，Xiong Caiming，和Socher Richard。2017年。 “Seq2SQL：使用强化学习从自然语言生成结构化查询。” arXiv预印本 arXiv:1709.00103 。