知识图谱嵌入表示为何能有效支持对未知三元组的链接预测任务?

How Does Knowledge Graph Embedding Extrapolate to Unseen Data: a Semantic Evidence [AAAI 2022]

导读: 知识表示学习是近年来的一个热点研究问题,在知识图谱中,研究人员们针对图上实体与关系的嵌入表示问题,提出了许多能充分学习实体在图谱中语义信息的嵌入模型。但是,却没有学者专门探究为何这些模型在训练数据上训练出的嵌入表示对于完全未知的测试数据也能有较好的效果。本文作者尝试从三种不同视角对这一问题进行探究,并在此基础上,提出了一种语义线索感知的GNN模型。
SE-GNN
论文地址: http://arxiv.org/abs/2109.11800
代码地址: SE-GNN

  • 首次探索了知识图谱嵌入表示的预测能力问题
  • 为充分建模语义信息,提出以一种基于GNN的嵌入模型SE-GNN

1. 引入

在知识图谱的链接预测任务中,对于三元组 ( h , r , t ) (h,r,t) (h,r,t)我们期望通过已知的头实体h和关系r,模型能够预测出实体t。例如已知h:李白,关系:职业,我们期望能预测出t:诗人,即“李白的职业是诗人”。(姑且称诗人为职业)这个任务看似直观,但却并不容易。由于自然语言中各种知识的存在的一词多义现象等问题,很难在有限的训练数据上实现这一任务。当前有许多针对这一任务而设计的嵌入表示模型,例如ComplEx[1], QuatE[2]和R-GCN[3]等模型分别使用了不同的建模策略,都取得了不错的效果。但为什么这些模型能学习到这样的语义知识,又怎么设计出一个更为有效的模型呢?作者针对这一问题,分别在关系信息层面、实体信息层面和三元组信息层面进行了实验探究。
1.1

  • 关系信息层面的线索:对于待预测的尾实体t,可能有多个不同的头实体h通过关系r与之链接。
  • 实体信息层面的线索:对于待预测的尾实体t,可能有多个从h出发能链接到t的路径。
  • 三元组信息层面的线索:对于待预测的尾实体t,h在关系r下可能存在多个不同的t。
    (解释示例将在下面第二部分给出)
    1.2

2. 知识图谱嵌入与预测

在本文中,定义给定知识图谱为 G \mathcal{G} G,其中实体集合为 E \mathcal{E} E,关系集合为 R \mathcal{R} R,三元组集合为 F \mathcal{F} F。将训练集、验证集和测试集的三元组分别表示为 F t r \mathcal{F}_{tr} Ftr, F v a \mathcal{F}_{va} Fva F t e \mathcal{F}_{te} Fte。作者将分别从三种不同的视角进行分析与实验。
在这里插入图片描述

1)关系信息层面

在关系信息,若有多个不同的头实体h通过相同的关系r指向t,则模型将学习到这一信息:通过关系r预测到实体t的可能性比较高。例如如果事先知道杜甫的职业是诗人,白居易和贺知章的职业也是是诗人,模型学习到了这些信息,那么预测李白是诗人的成功将会上升,再不济预测结果时矿老板的可能性也会大于预测为茅台酒的可能性。矿老板也可以是一种职业,而茅台酒则是一个商品。(李白可能真是矿老板,感兴趣可看链接视频)
在这里插入图片描述

2)实体信息层面

在实体信息层面,对于指定 ( h , t ) (h,t) (h,t),若有多个不同的关系路径使得h能链接到t,则模型通过学习可以提升h与t之间的语义相关性,并为其他预测提供有用的信息。例如通过学习{(苏轼,兄弟,苏辙),(苏辙,父亲,苏洵)},{(苏轼,姐妹,苏小妹),(苏小妹,父亲,苏洵)},可以使得模型可能学到苏轼的父亲是苏洵的信息,并且如果已知(苏洵,父亲,苏序),则也可能学到苏轼的祖父是苏序。这两个信息都是训练集中没有出现的潜在信息。
在这里插入图片描述

3)三元组信息层面

在三元组信息层面,作者团队利用了一个假设:“在相同语境中出现的词有相似的含义”。计算尾实体间的相似度时,使用它们在同样 ( h , r ) (h,r) (h,r)语境下不同尾实体出现的次数来衡量其相似程度。这样将使得这些尾实体间的语义相似性得到提升。
在这里插入图片描述
为验证上述三种层面推理的正确性,作者对六种不同的经典嵌入表示模型训练后得到的嵌入表示做了链接预测实验,实验结果表明,三种层面的信息越多,则链接预测的效果越好。这个趋势,哪怕是在关系比较少的WN18RR数据集也能明显看出。在这里插入图片描述
在这里插入图片描述
这些现象不是很难想到,但是对其进行系统化的梳理和验证的研究思路是值得学习的。

3. 语义线索感知的GNN

作者团队针对以上发现的三种层面的线索,设计了一种语义线索感知的模型SE-GNN,模型对三个不同层面的三元组分别进行GNN聚合,在融合不同层面生成的嵌入表示后,再经过2-3层的迭代,最终输入到ConvE模型,实现最终的预测效果。ConvE[4]是一个利用卷积神经网络来处理链接预测的模型。具体流程如下所示:

1)关系信息层面聚合

在这里插入图片描述

2)实体信息层面聚合

在这里插入图片描述

3)三元组信息层面聚合

在这里插入图片描述

4)迭代训练

迭代训练时,作者为了使得每次迭代学到的信息更加丰富,会重新初始化关系嵌入。迭代轮数一般为2-3轮。
在这里插入图片描述

5)ConvE

在这里插入图片描述
ConvE的架构如下:
在这里插入图片描述

4. 实验评估

1)链接预测实验

对于SE-GNN的链接预测效果,作者挑选了一些模型进行了比较,实验证明其模型具有较好的链接预测效果。
在这里插入图片描述

2)与ConvE的对比实验

为了证明是三层语义信息聚合带来的效果提升,作者专门做了了与ConvE的对比实验。
在这里插入图片描述

3)消融实验

实验结果显示三个层面得到的嵌入融合后,对链接预测效果有一定的提升。不过,消融之后的效果差距并不明显。
在这里插入图片描述

5. 总结

对不同模式下的三元组聚合,会带来更好的嵌入效果。集成三种模式的方法还存在研究空间,但存在风险,可能不会有太大提升空间。
如何优雅的将多个模式组合起来的方法值得学习。
最后回顾一下整体流程图:
在这里插入图片描述

[0] Li, Ren, Yanan Cao, Qiannan Zhu, Guanqun Bi, Fang Fang, Yi Liu, and Qian Li. "How Does Knowledge Graph Embedding Extrapolate to Unseen Data: a Semantic Evidence View."arXiv preprint arXiv:2109.11800(2021).
[1] Trouillon, T.; Welbl, J.; Riedel, S.; Gaussier, ́ E.; and Bouchard, G. 2016. Complex Embeddings for Simple Link Prediction. In Proceedings of the 33nd International Conference on Machine Learning, ICML 2016, New York City, NY, USA, June 19-24, 2016, volume 48 of JMLR Workshop and Conference Proceedings, 2071–2080. JMLR.org.
[2] Shuai Zhang, Yi Tay, Lina Yao, and Qi Liu. Quaternion knowledge graph embeddings. In Advances in Neural Information Processing Systems, pp. 2731–2741, 2019.
[3] Schlichtkrull, M. S.; Kipf, T. N.; Bloem, P.; van den Berg, R.; Titov, I.; and Welling, M. 2018. Modeling Relational Data with Graph Convolutional Networks. In The Semantic Web - 15th International Conference, ESWC 2018, Heraklion, Crete, Greece, June 3-7, 2018, Proceedings, volume 10843 of Lecture Notes in Computer Science, 593–607. Springer.
[4] Dettmers, T.; Minervini, P.; Stenetorp, P.; and Riedel, S. 2018. Convolutional 2D Knowledge Graph Embeddings. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018, 1811–1818. AAAI Press.

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值