Mgeo：multi-modalgeographic language model pre-training

summermoonlight

已于 2023-11-16 11:21:43 修改

阅读量1k

点赞数 1

文章标签：语言模型人工智能自然语言处理

于 2023-10-31 18:27:02 首次发布

本文链接：https://blog.csdn.net/qq_45034517/article/details/134145444

版权

文章目录

- question
introdution
7 conclusion
Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese Geographic Re-Ranking
- abs
ERNIE-GeoL: A Geography-and-Language Pre-trained Model and its Applications in Baidu Maps
- abs
- intro

question

给定query，如何选取周边n个地理实体。（按照距离远近）
训练过程如何进行。（nlp mask，对比学习）

introdution

作为导航地图（如谷歌地图）、叫车应用（如 Uber）和送餐平台（如 Uber Eats）等基于位置的服务（LBS）的一项基本功能，查询和兴趣点（POI）匹配旨在根据用户的特定或隐含意图找到候选兴趣点列表。候选结果对于为用户提供真实世界的地理信息至关重要，而真实世界的地理信息会直接影响用户的导航、路线选择和点餐过程。因此，要提供令人满意的用户体验，有效而准确的查询-POI 匹配必不可少。典型的查询-POI 匹配过程如图 1 所示，它由 "检索-排序 "两个阶段组成[36, 38]。具体来说，给定一个查询，轻量级检索器首先通过搜索海量数据库生成一组初始候选 POI，然后排序器对最相关的候选 POI 进行排序。 这种结构在信息检索（IR）系统中被广泛采用，因为它能在效率和效果之间进行权衡。

最近有关自然语言处理（NLP）和 IR 的文献表明，预训练语言模型（PLM）的发展日新月异，尤其是在语义文本相似性（STS）和开放领域问题解答（QA）方面 [3, 14, 17]。在特定领域语料库上继续进行自我监督训练，对于将通用 PLM 适应于其他领域非常有效 [9]。为了提高 PLM 在地理信息系统任务中的能力，最近提出了各种方法，根据与地理相关的文本数据和用户行为数据注入地理知识[10, 11, 20, 29]。虽然这些方法在查询-POI 匹配方面比通用 PLM 更好地捕捉语义相似性，但它们几乎无法利用更重要的环境地理上下文（GC），即来自地理信息系统（GIS）的各种地理对象及其相关性（详见定义 2）。具体来说，地理对象包括以线条表示的道路和以多边形表示的感兴趣区域（ROI），相关性包括附近、覆盖范围及其相对位置。

查询通常会提及目标 POI 背景中的多个地理对象。要实现准确的查询-POI 匹配，就必须充分捕捉 GC 中的信息。例如，给定查询 “地下路上的学校大门”，如图 1 所示，会检索到多个相关的 POI。离用户最近的 "地下道 "是 “南开地下道”，而 "南开中学 "在 "地下道 "上有一个校门（c）。因此，最匹配的 POI 应该是大门（c）。问题是，"南开中学 "的正门（a）正式位于 “沙坪坝南街”。其侧门（c）在地理信息系统中没有被记录为位于 “地下道”。还应注意的是，用户当前位于 “三峡广场”，而该广场的大门（b）位于 "地下道 "上。仅凭语义文本的相似性不足以区分这两个硬否定（a）和（b）。此外，"联合中学 "的校门（d）是离用户最近的校门。如果只考虑用户和 POI 的相对位置，就会匹配到错误的校门（d）。只有将整个地理信息系统考虑在内，才能找到正确的校门（c）。

为此，我们提出了一种利用地理信息系统进行查询-POI 匹配的新方法，即多模态地理语言模型（MGeo）。MGeo 弥补了语义和 GC 之间的模态差距。MGeo 由地理编码器和多模态交互模块组成。 地理编码器将 GC 表述为一种新的模态，从而利用了 GC。然后，多模态交互模块将地理特征与语义结合起来。MGeo 利用查询和 POI 之间的文本、地理和跨模态交互。由于交互模块与没有地理坐标的查询兼容，因此可以选择提供用户的位置，这也是许多应用可能需要的。因此，可以充分提取文本和地理模式之间的丰富关联，确保查询与 POI 匹配的质量。

此外，由于隐私问题，目前还没有公开的未加密查询POI 匹配基准。大型公开可用的语料库可以为研究带来许多突破，例如 MS MARCO [22]。为了促进对这一主题的进一步研究、开发稳健的技术并跟踪研究进展，我们引入了地理文本相似性（GeoTES），这是一个开源的大规模基准，用于查询-POI 匹配（详见第 4 节）。POI 来自开源地理信息系统 OpenStreetMap (OSM)1。为防止隐私问题，查询由注释者手动生成，因此不需要加密。

我们对查询-POI 匹配问题中的重要概念 GC 进行了形式化，并提出了一种使用地理编码器将其表示为新模态的新方法 MGeo。
我们还提出了一个多模态交互模块，以整合文本模态和地理模态之间的相关性。它也兼容无地理编码的查询。
为了促进进一步的研究，我们建立了一个新的开源大规模基准 GeoTES。POI 来自开源 GIS，查询由注释者手动生成，以防止隐私问题。
实验结果表明，与强大的基准相比，我们提出的方法可以显著提高 PLM 的查询-POI 匹配能力，即使在没有为查询提供 GC 的情况下也是如此。

5.1 Geographic Encoder

如果没有 GC，仅有地理定位是毫无意义的。地理编码器将地理位置 l 作为输入，将 GC 作为一种新的模态映射到密集表征中，其中包含周围地理对象的特征 {o1, o2, ., on }。

5.1.1 Encoding

地理编码器可提取查询/POI 地理定位（点）与其周围地理对象（线或多边形）之间的相关性。地理编码器分别将地理对象的固有特征（即 ID、形状和地图位置）、关系（即 NEAR 或 COV ERED）和相对位置表示为嵌入。
ID.为了提取地理对象的内在特征，OSM ID 被映射到嵌入式中，其方式与单词嵌入式类似。oi 的 ID 嵌入表示为 ed i。
shape.使用独热函数将分类形状类型 osi 编码为数字数组，并获得其相应的嵌入信息 es i。形状类型嵌入表示为 es i。
地图位置。oi 在地图 em i 中的绝对位置是将其与其他地理物体区分开来的关键。以矩形为单位的整个地图区域被分割成 N × N 的网格，从而分别获得经度和纬度的比例因子 slng 和 slat：

地理对象的内在特征由三个组成部分（ed、es 和 em）描述。ed是地理对象的唯一标识符，es区分道路和ROI，em描述不同地理对象之间的位置关系。另外两个分量（et 和 ep）描述了地理定位与地理对象之间的相关性。将周围的地理对象编码为一个序列 {e1, ., em } 后，地理编码器采用多层双向变换器 [33] 来学习它们之间的相互作用。根据之前的工作[31]，地理编码器会像 CLS 编码器一样在开头预置一个 GC 标记。因此，地理编码器的输出表示为 {hGC, h1, ., hm }。

5.1.2 Training

我们设计了两个任务来训练地理编码器，并在以后的使用中固定下来，即屏蔽地理建模（MGM）和地理对比学习（GCL）。

MGM与广泛使用的掩码语言建模（MLM）[5]一样，MGM 的目的是预测掩码地理特征，即 OSM ID、几何类型、替代矩形的各边、关系类型和相对位置。MGM 损失 L_MGM 由所有特征的屏蔽损失相加计算得出。

GCL。这项任务与大小为 bs 的批次中的多个地理位置 {l pq 1 ,…,l pq bs } 有关。我们首先定义现实世界中的地理距离矩阵 H∈Rbs×bs 如下：

请添加图片描述
其中，haversine 是计算地理位置间球形距离的 haversine 函数[23]， ||`||N 是高斯归一化函数，σ 是将距离映射到范围（0，1）的 sigmoid 函数。由于输出空间中嵌入点之间的潜在距离应与它们在现实世界中的地理距离相对应，因此我们使用 hGC 作为地理定位 lpq 与 GC 的表示，并计算潜在距离矩阵̃ H∈ Rbs×bs 如下：

请添加图片描述
其中，⟨-⟩ 表示 doc-product 函数，∥ - ∥L2 为 L2 归一化函数。我们使用 KL-发散度来衡量 H 和～H 之间的相似度：

其中，DKL (- ∥ -) 表示 KL-发散，而 so f tmax 函数用于将 Hi 和～ Hi 转换为分布。

因此，地理编码器的训练损耗 Lg 的计算公式为

L_g = L_MGM + L_GCL (13)

利用这样的训练过程，地理编码器就能对给定地理信息系统中的 GC 进行建模。

5.2 multi-modal pre-training

MGeo 预训练的输入是一对文本和地理位置（t，l）。预训练数据可以来自不同来源，例如用户的点击或送货员的位置。多模态训练旨在将这两种模态对齐到一个潜在空间中。词嵌入用于将文本映射到向量序列中。地理编码器提供给定 l 的 GC 嵌入式。然后将两个嵌入式连接在一起，并输入多层双向变换器。
我们使用三种任务来学习 GC 与文本之间的交互，即单模式 MLM、多模式 MLM 和多模式 MGM。这些任务轮流进行训练。单模态 MLM 是 BERT 中使用的原始 MLM 任务，它随机屏蔽输入文本并用 MASK 标记替换。单模态 MLM 会移除地理编码器的输出。而多模态 MGM 则依靠整个地理编码器和部分文本信息来预测被屏蔽的标记。多模态 MGM 会随机屏蔽输入的地理特征并将其替换为 MASK，然后根据整个文本信息和部分地理信息进行预测。

在这里插入图片描述

5.1.3 Relevance Measurement

如图 3 所示，MGeo 可以使用双编码器和交叉编码器架构。双编码器分别对查询和 POI 进行编码，以提高效率。它可用于检索和排序阶段。在实际应用中，地理编码器会对 POI 或查询的地理位置进行编码。由于隐私问题或硬件限制，用户位置并不总是可用的，因此查询的 GC 可以缺失。然后将输出与词嵌入进行连接。然后，基于变换器的多模态交互模块生成隐藏状态作为最终表示。我们通过查询和 POI 对的 CLS 表示（即 ˆ h p 和 ˆ h p）之间的余弦相似度来计算它们的相似度得分。双编码器计算查询和所有 POI 之间的相似性得分，以完成检索任务。

与双编码器不同的是，交叉编码器会将每个查询-POI 对串联起来，然后再输入多模态交互模块。交叉编码器允许在查询和 POI 之间进行细粒度的标记级交互，通常能提供更准确的相关性估计，但效率较低。因此，交叉编码器通常只用于排序阶段。查询或 POI 的 GC 由地理编码器单独编码。查询的 GC 也是可选的。我们将查询文本内嵌、POI 文本内嵌、查询 GC 内嵌（可选）和 POI GC 内嵌连接在一起，然后将其输入多模态交互模块。我们特别使用了地理判别器，以方便对查询和 POI 的 GC 进行地理比较。地理判别器在地理编码器的输出中添加嵌入，以区分查询地理坐标和目的地地理坐标。与 BERT 中的段嵌入一样，地理判别器的嵌入也是随机初始化和可训练的。我们将 CLS ˆ h pq CLS 的隐藏状态输入多层感知器 (MLP)，以产生相似性分数。

7 conclusion

在本文中，我们正式提出了地理语境（GC）这一重要概念，它在现实世界中人类探索 POI 的过程中不可或缺。我们提出了一种多模态地理语言模型 MGeo，它将 GC 视为一种新的模态。因此，GC 可以与文本一起表示。此外，我们还建立了一个新的开源大规模基准 GeoTES，以促进对查询-POI 匹配主题的进一步研究。我们在最先进的 PLM 上进行了广泛的实验来评估我们提出的方法，详细的分析表明 MGeo 的性能明显优于其他基准。即使用户的地理位置可能不存在，查询也没有 GC，MGeo 仍然能比基线方法有所改进，这表明它有能力对文本到文本、GC 到 GC 以及文本到 GC 的相关性进行建模。在未来的工作中，还可以进一步探索 POI 图像等其他模式，以及更具创造性的地理编码器。此外，我们提出的 GC 建模有可能促进所有与地理相关的任务。

Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese Geographic Re-Ranking

abs

中文地理重排序任务旨在从检索到的候选地址中找出最相关的地址，这对于导航地图等与位置相关的服务至关重要。与一般句子不同，地理上下文与地理概念密切相关，从一般跨度（如省）到具体跨度（如路）。鉴于这一特点，我们提出了一个创新框架，即地理编码器（Geo-Encoder），以更有效地将中文地理语义整合到重新排序管道中。我们的方法首先利用现成的工具将文本与地理跨度关联起来，将它们视为分块单元。然后，我们提出了一个多任务学习模块，以同时获取有效的注意力矩阵，从而确定分块对额外语义表征的贡献。此外，我们还为拟议的添加任务提出了一种异步更新机制，旨在引导模型有效地关注特定的语块。在两个不同的中国地理重新排序数据集上进行的实验表明，与最先进的基线相比，地理编码器取得了显著的改进。值得注意的是，它大大提高了 MGEOBERT 的 Hit@1 分数，在 GeoTES 数据集上从 62.76 提高到 68.98，提高了 6.22%。

ERNIE-GeoL: A Geography-and-Language Pre-trained Model and its Applications in Baidu Maps

abs

预训练模型（PTM）已成为自然语言处理和计算机视觉下游任务的基本支柱。尽管在百度地图上将通用 PTM 应用于地理相关任务取得了初步成效，但随着时间的推移，人们发现其性能明显趋于稳定。造成这种停滞的主要原因之一是通用 PTM 中缺乏现成的地理知识。为了解决这个问题，我们在本文中介绍了 ERNIE-GeoL，它是一个地理和语言预训练模型，专为改善百度地图的地理相关任务而设计和开发。ERNIE-GeoL经过精心设计，通过对包含丰富地理知识的异构图生成的大规模数据进行预训练，学习地理语言的通用表示。在大规模真实世界数据集上进行的大量定量和定性实验证明了ERNIE-GeoL的优越性和有效性。自 2021 年 4 月起，ERNIE-GeoL 已在百度地图的生产中部署，并显著提高了各种下游任务的性能。这表明，ERNIE-GeoL 可以作为各种地理相关任务的基础骨干。

intro

百度地图提供的网络地图服务，如兴趣点（POI）检索[7, 13, 15]、POI 推荐[4]、POI 信息页面[31]和智能语音助手[12]等，都通过应用 PTM 提高了性能。然而，我们在实践中观察到，随着时间的推移，性能明显趋于稳定，也就是说，与通用 PTM 的优化相比，性能提升仍然微不足道。造成这种高原现象的主要原因之一是缺乏地理知识，而地理知识在改进需要地理信息计算支持的任务（以下简称地理相关任务）中发挥着至关重要的作用。在这项工作中，我们重点关注两类地理知识。(1) 地名知识。地名是指地理位置实体的名称，如 POI、街道和地区。地名解析[20]的目的是从文本中识别和提取地名，是各种地理相关任务的基本需要。然而，通用 PTM 很难捕捉到大多数地名的语义，因为地名知识在其训练数据中基本不存在或很少出现。(2) 空间知识。空间知识主要包括地理位置实体的地理坐标以及不同地理位置实体之间的空间关系，这些知识是地理编码[9]和地理参照[11]等地理相关任务所不可或缺的。然而，由于缺乏空间知识和纳入空间知识的预训练任务，通用 PTM 无法有效处理与地理相关的任务。