算法实践 | 面向中文地址的预训练语言模型GeoBERT

京东云技术团队

于 2019-11-05 18:23:18 发布

阅读量1k

点赞数

文章标签：大数据自然语言处理机器学习人工智能深度学习

本文链接：https://blog.csdn.net/JDDTechTalk/article/details/109615687

版权

点击「京东数科技术说」可快速关注

「引言」随着大数据技术和地理信息系统(Geographical Information Systems, GISs)的快速发展和广泛应用，地理编码技术在连接各领域非空间数据资源与空间数据方面起到越来越重要的作用。“地址”作为一种重要的包含空间信息的文本数据资源，记录了社会生产活动及人的行为活动对应地理空间信息，从而赋予非空间数据空间属性，在地理商业智能(GEO-BI)、城市治理、金融风控等领域有着重要的应用价值。

本文首创地提出了一种面向中文地址文本的语言模型预训练方法(GeoBERT)，该方法通过多子任务共同约束的方式，能够有效捕捉地址文本之间的空间语义关系、在不依赖外部映射字典的情况下学习地址的行政层级要素以及行政区划之间的隶属关系，能够对地址中单字及其上下文环境信息进行语义表征，并在高维空间仍保持两条地址的真实关系。

基于该模型获得的地址文本的向量化表征矩阵可作为地址分类、地址分词、地址中POI提取、地址相似度对比或地址真实性核验等地址文本相关深度神经网络的输入Embedding，减少上层具体任务对标注数据的依赖，减少模型训练收敛时间，并提高模型的准确性和召回率。

本文主要内容分为模型训练数据预处理、预训练语言模型构建、预训练语言模型训练、应用场景四个部分。

一、模型训练数据预处理

原始的语料数据包括地址文本数据及其对应ID两部分。在原始语料的基础上进行文本清洗，包括：剔除过短或过长的地址条目，剔除字段缺失的地址条目，然后将字符全角转换为半角，剔除地址文本中空格、制表符、引号、各种括号等中文标点符号，得到标准预料。为保证模型训练数据的无偏性，将标准化后的地址语料数据进行分层采样，得到分布均衡的地址语料数据，并将数据条目的顺序随机打乱。

在上一步清洗处理好的语料数据基础上，对模型构建所需的数据进行预处理，并按比例划分出训练集、验证集、测试集。具体方式如下：

1、对于步骤1中的每一条地址，以概率p(如50%)从剩余地址中随机选择一条地址，以概率1-p选择该条地址本身，构建地址对(address pair)，然后将地址对中两条地址文本及其对应省、市、区县进行对比，即两条地址是否相同、两条地址是否为同一物理对象的地址(例如，对于同一所学校，不同人填写的地址文本可能有差异，但指向的是同一所学校；对于同一小区的同一栋楼，不同住户填写的地址文本可能有差异，但指向的是同一栋楼)、两条地址所属省份是否相同、两条地址所属市是否相同、两条地址所属区县是否相同。同时，对于地址对中两条地址文本，借助最长公共子序列算法得到最长公共子序列，并计算最长公共子序列的长度占两条地址平均长度的比值。按以上步骤构建如表1所示的基础数据集。该过程可重复多次，重复次数由重复因子参数决定。