论文浅尝 | 基于位置的社会网络中社会经济指标预测的层次知识图谱学习

550235a360e9b0a2238c5a475e937fce.png

笔记整理:陈少凯,浙江大学硕士,研究方向为知识图谱

链接:https://dl.acm.org/doi/pdf/10.1145/3543507.3583239

1. 动机

社会经济指标从人口、经济、犯罪、土地利用等各个方面反映区位状况,对理解基于位置的社会网络(LBSNs)具有重要作用。特别是,已有的一些研究利用多源数据对LBSNs的社会经济指标进行预测,但未能捕获语义信息,并从中提取全面的知识。另一方面,从多源数据中提取语义知识的知识图谱是近年来LBSN研究的热点,这也启发了作者在LBSN中引入知识图谱进行社会经济指标预测的想法。

本文提出了一种基于知识图谱的层次学习框架来解决LBSN中异构数据建模的问题。

首先,论文将知识图谱引入LBSN的社会经济指标预测问题中,构建了LBKG来将异构的LBSN数据综合集成到一个单一的多关系图中。

其次,作者提出了一个层次KG学习模型,该模型利用LBKG从全局视角提取全局知识,并利用多个子KG在全局知识的帮助下从不同方面获取领域知识。

最后,作者设计了一个多样化领域专业化融合模块来融合各种类型的领域专业化信息。

2. 方法

模型的整体架构如下:

be8361fac5403ecd6b7dccc22018208a.png

首先,作者构建了LBKG来将LBSN数据中的元素建模为实体,将LBSN数据中的复杂关系建模为LBKG中的关系。其次,作者提出了一个层次模型来从LBKG中获取全局知识和领域知识。在更高层次上,作者通过KG嵌入模型从LBKG中提取全局知识。在较低层次上,作者从不同方面提取了包含领域知识的LBKG的子KG;利用全局知识对子KG中的领域知识进行提炼,并与全局知识相结合生成位置嵌入图。最后,将学习到的位置嵌入输入到社会经济指标预测的回归模型中。

2.1 LBKG构建

作者首先构建了一个包含LBSN中各种元素和关系的LBKG,以捕获其中的语义信息。然后将与空间性知识、功能知识、流动性知识和业务知识等指标相关的LBSN知识整合到LBKG中。因此,LBKG包含了LBSN中的各种元素以及它们之间的复杂关系。

a8f40873aeaa7d8b350d0bfe8f985e7e.png

2.2 分层知识蒸馏

在构建了具有丰富语义信息的LBKG之后,作者进一步提出了一个层次模型来综合获取不同类型的知识。具体来说,通过一个较高层次的知识编码器从LBKG中提取全局知识,从而获取LBSN的整体特征。在较低层次上,借助全局知识的提取,提取子KG来获取领域知识。最后,通过知识融合模块将领域知识和全局知识相结合,生成位置的嵌入。

(1)全局知识蒸馏

为了从LBKG中提取全局知识,作者在实验中采用了广泛使用的KG嵌入模型R-GCN作为知识编码器。R-GCN的信息聚合过程如图1(b)所示,其中实体在第(l+1)层的嵌入可以表示为:

a589847b924d502150a3bc6446e39ee4.png

(2)领域知识蒸馏

根据不同的知识,地点扮演着不同的角色。具体来说,作者在LBKG中根据不同种类的知识提取几个子KG,以捕获LBSN中的领域知识。

在从LBKG中提取出子KG之后,作者设计了一个领域知识编码器来提取每个子KG中的领域知识。此外,需要注意的是,这里的输入是全局知识编码器后的嵌入,也可以在整个LBKG中保存全局知识。

由于不同知识对社会经济指标预测的贡献不同,我们进一步采用知识融合模块自适应融合知识。具体来说,让{  }为子KG集合,我们计算每个子KG的重要性为:

9ffafb814ae56d44d23282d4f6a2fd7d.png

每个子KG的权重可以通过对  进行 softmax函数归一化来计算:

5fc2ae558d73e6c80d79efc08b51d6e7.png

最后,将每个子KG的嵌入进行融合,得到子KG位置的嵌入: β 

3. 实验

为了验证模型的有效性,在北京、上海和纽约三个城市的LBSN数据集上进行了实验,为每个数据集构建了LBKG。各个LBKG的统计信息如下表1所示:

f4e66bae0a704ca1ded69e1ecef61fa1.png

作者设计的模型和基线在三个数据集上的整体性能如表2-3所示:

0234b834cb0c25e00f6eb42f03c68826.png

a8330770980cd4da201675393ed8be2a.png

从中可以得到以下结果:

(1)作者的模型在几乎所有指标上都优于所有基线,因为它能够综合整合各种LBSN知识。

(2)其次,图神经网络具有较好的性能,说明LBKG具有丰富的语义。

(3)在不同的基线中,MVURE和HUGAT通常表现较好,因为它们从各个方面将信息整合到LBSN中,而仅考虑数据移动性的ZE-Mob和MGFN模型表现较差。这一发现说明了考虑各种LBSN知识的重要性。

3.1 消融实验

为了评估全局知识和领域知识的影响,作者去除LBKG或子KG,并使用其余的嵌入来预测社会经济指标。如图4所示,省略LBKG或子KG后,所有指标的性能都有所下降,这说明LBKG中存在全局知识,子KG中存在领域知识。

e027ba9ae255d6b58982c4005a27447a.png

此外,作者通过去除LBSN中不同的子KG和对应的实体和关系,分析了不同LBSN知识的有效性。从图5中可以看到,当去除每个子KG时,几乎所有指标的性能都变差了,这说明了在作者的模型中加入各种LBSN知识的必要性。

4b0d1401d9ebf8599ca7d0f3fa7bebf5.png

4. 总结

这篇论文提出了一种用于LSBN中社会经济指标预测的层次知识图谱学习模型。此外,作者设计了一个层次模型来全面学习全局知识和领域层次知识,并在三个真实数据集上的实验证明了其有效性和鲁棒性。此外,这项工作也存在一些局限性。例如,作者使用来自不同来源的LBSN数据,其中一些可能并不容易收集,例如业务领域数据。未来工作的一个有前景的方向就是集成归纳KG技术(比如NodePiece),用于归纳式学习。最后,作者计划将该模型更改为用于社会经济指标预测的端到端框架。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

4ab270dae7d3fdd24ddc96da21f5d703.png

点击阅读原文,进入 OpenKG 网站。

  • 8
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值