论文阅读《A Re-evaluation of Knowledge Graph Completion Methods》

论文链接:添加链接描述
研究背景:为什么NN算法效果好但在不同数据集表现不同
现实世界的知识库通常是不完整的,这激发了自动预测缺失链接的研究。知识图谱补全(KGC)的一种流行方法是将实体和关系嵌入到连续的向量或矩阵空间中,并利用设计良好的得分函数f(h, r, t)来衡量三元组(h, r, t)的合理性。
之前的方法大多使用基于平移的方法,最近,大量基于神经网络的方法被提出。它们具有复杂的得分函数,这些函数利用了包括卷积神经网络、循环神经网络、图神经网络以及胶囊网络在内的“黑箱”神经网络。
虽然其中一些方法取得了相当高的性能提升,这在不同的数据集上并不一致。此外,人们现在对这些不寻常的行为没有进行深入分析。
在本文中,作者分析了这个问题,发现这归因于这些方法使用了不恰当的评估协议。
NN类算法在不同数据集上显示出不同的增益
最近提出的几个方法报告了在特定数据集上的高性能提升。然而,它们在另一个数据集上的性能并没有持续提高。
在这里插入图片描述
如图是不同方法在FB15K-237和WN18RR数据集上的MRR与ConvE的对比。
有效三元组与负三元组的得分分布
我们发现,对于最近的一些基于NN的方法,在这两个数据集上存在不一致的增益。
例如,在 ConvKB中,相比在FB15k-237上的ConvE有21.8%的提升,但在WN18RR上退化了42.3%,这令人惊讶,因为该方法据称比ConvE 更好。
另一方面,像RotatE和TuckER这样的方法在两个基准数据集上都给出了一致的提升。
在这里插入图片描述
一个例子,使用ConvKB模型获得的“有效三元组”和“负三元组”的得分分布。
58.8%的负采样三元组获得与有效三元组完全相同的分数。(越低越好)
在14,541个负采样三元组中,8,520个与有效三元组的得分完全相同。
在这里插入图片描述
在FB15K-237数据集上评估时,与有效三元组分配分数相同的负三元组数量的频率。结果显示,对于像ConvKB和CapsE这样的方法,大量的负三元组得到了与有效三元组相同的分数,而对于像ConvE这样的方法,这种情况很少出现。
平均而言,在FB15K-237的整个评估数据集上,ConvKB和CapsE分别有125和197个实体与有效三元组的分数完全相同,而ConvE的分数约为0.002,几乎可以忽略不计。
从NN类算法的forward中寻找原因
在这里插入图片描述
我们绘制了有效三元组 ReLU激活后变为零的神经元比例与它们在 FB15k-237 数据集上的归一化频率的对比。
结果显示,在ConvKB和CapsE中,应用ReLU后有很大一部分神经元(分别为 87.3%和 92.2%)变为零。
然而,对于ConvE,这个计数大大减少(约 41.1%)。由于几乎所有神经元的归零(ConvKB 至少为 14.2%,CapsE 为 22.0%),几个三元组的表示在前向传递期间变得非常相似,从而导致获得完全相同的分数。
不恰当的评估协议是NN方法异常行为背后的关键原因
在本节中,我们提出了知识图谱补全中可以采用的不同评估协议。我们进一步表明,不恰当的评估协议是最近一些基于nn的方法异常行为背后的关键原因。
如何处理相同的分数? 评估方法的一个重要方面是决定如何打破三元组同分的平局。
更具体的说,在给候选集打分时,如果模型中有多个得分相同的三元组,决定选择哪一个三元组。
我们为KGC设计一个通用的评估方案,它由以下三个不同的协议组成:
TOP:正确的三元组被插入到候选集的开头。
BOTTOM:正确的三元组被插入到候选集的末尾。
RANDOM:正确的三元组被随机的放置到候选集中。
基于三个评估协议的实验结果
在这里插入图片描述基于三个评估协议的定义,可以明显看出 TOP 评估协议并没有严格评估模型。它获得了有偏差的模型,为不同的三元组提供相同的分数,这是一种不恰当的优势。另一方面,底层评估协议在推理时间内可能对模型不公平,因为它惩罚了给多个三元组提供相同分数的模型,如果许多三元组与正确的三元组得分相同,那么正确的三元组将获得尽可能最小的排名。因此,随机是最好的评估技术,它对模型既严格又公平。这符合我们在现实世界中遇到的情况: 给定几个得分相同的候选人,唯一的选择就是随机选择其中一个。因此,我们建议对所有的模型性能比较使用随机评估方案。
研究结论
在我们的实验中,我们将现有的 KGC 方法分为以下两类:
在不同评估方案下提供一致性能的方法。对于本文的实验,我们考虑了三种这样的方法- ConvE, RotatE 和 TuckER。
基于神经网络的方法,其性能受到不同评估协议的影响, ConvKB, CapsE, TransGate2 和 KBAT 都属于这一类。
我们研究了使用顶部和底部协议的效果,并将它们与随机协议进行比较。在他们的原始论文中, ConvE、RotatE 和 TuckER 使用了类似于所提出的随机协议的策略,而ConvKB、CapsE和KBAT则使用了TOP协议。我们还研究了多次运行的随机协议中的随机误差,我们报告了使用不同随机种子的5次运行的平均值和标准差。

GitHub链接:https://github.com/svjan5/kg-reeval

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jiawen9

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值