机器学习已经被广泛应用于地理空间任务中,包括贫困评估、公共健康、食品安全等等。在上述任务中,数据的质量尤为关键。然而,高质量数据的获取面临诸多挑战,如时空覆盖度有限、成本高和权限限制等等。例如,研究者们通常使用免费和公开的卫星图像估计社会经济指标,但卫星图像往往不能全面覆盖该任务所需的重要特征,导致估计精度低。针对该问题,作者受到大语言模型(LLM)的启发,探究LLM是否蕴含有助于地理空间任务学习的相关知识,并设计大语言模型地理空间知识抽取方法GEOLLM。
GEOLLM是一种基于提示学习的方法。该方法引入外部OpenStreetMap地图数据,构建包含地址和邻居信息的提示,并以此输入LLM进行特定任务微调。下图展示了基本提示模板和本文所提出的提示模板,同时展示了在人口密度预测任务上微调GPT-3.5后的预测结果。由图可知,基础提示模板仅输入目标位置的GPS坐标,微调GPT-3.5输出的结果与真实结果相差甚远。相对而言,本文所提出的提示模板包含了目标位置的详细地址信息,以及其邻居位置信息,微调GPT-3.5输出的结果与真实结果相近。
阅读该论文后,有以下收获:大语言模型包含地理空间知识,但感觉该种知识仍然体现在语义上,也即地理位置名称所蕴含的知识,而非坐标所反映的距离或位置知识。LLM包含粗粒度的地理空间知识(大范围位置的相关信息,比如城市类型,街道类型),但针对细粒度的地理空间知识还需进一步探索(A与B的距离)。