论文浅尝 - ECIR2021 | 两种实体对齐方法的严格评估

本文深入分析了SOTA实体对齐方法的benchmark问题,指出可能存在的不可对比性,并对RDGCN和DGMC两种方法进行严格评估。研究发现,尽管这两种方法通常优于基线,但在包含噪声的数据集上性能会下降。实验强调了超参数选择对GNN方法性能的影响,并提供了公平比较的方法。
摘要由CSDN通过智能技术生成

笔记整理 | 谭亦鸣,东南大学博士生



来源: ECIR 2021

在这篇工作中,作者对两种SOTA实体对齐方法做了广泛的研究:首先仔细分析了现有benchmark的过程,并论证了其中存在一些缺陷,使得原始方法给出的实验结果之间可能存在不可对比的情况;另一方面,作者怀疑存在一种普遍的直接对测试集做超参数优化的处理,这种情况将会导致论文发表的实验性能的可靠性(价值)不那么高。因此,本文筛选了一种具有代表性的benchmark数据集样本,分析它的特征,同时,考虑到实体的表示对于系统性能的决定性影响,作者对实体表示的不同初始化方案也进行了测试。进一步的,作者使用共同的训练/验证/测试集在所有数据集和所有方法上进行了实验评估,从结果上看,虽然大多数情况下,SOTA方法都优于baseline,但是当数据集包含噪声时,则出现明显性能下降。

首先作者对现有方法的共性做了说明:

1.大多数方法基于GNN

2.使用基于表示学习的实体名特征

3.考虑了KG中不同类型的关系(在预处理过程中聚合不同类型的关系)

基于这些共性,作者选择了在近期工作中效果较好的关系感知-双图卷积网络(RDGCN),此外,也引入了深度图匹配共识(DGMC)出于以下两个因素:i.前面提到的工作未提到该方法 ; ii.在该方法没有使用关系类型信息的条件下,取得了非常好的性能。

实体对齐数据集分析:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值