论文浅尝 - ECIR2021 | 两种实体对齐方法的严格评估

最新推荐文章于 2024-03-28 17:08:05 发布

开放知识图谱

最新推荐文章于 2024-03-28 17:08:05 发布

阅读量1.7k

点赞数

文章标签： python 机器学习人工智能深度学习大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/116470875

版权

本文深入分析了SOTA实体对齐方法的benchmark问题，指出可能存在的不可对比性，并对RDGCN和DGMC两种方法进行严格评估。研究发现，尽管这两种方法通常优于基线，但在包含噪声的数据集上性能会下降。实验强调了超参数选择对GNN方法性能的影响，并提供了公平比较的方法。

摘要由CSDN通过智能技术生成

笔记整理 | 谭亦鸣，东南大学博士生

来源: ECIR 2021

在这篇工作中，作者对两种SOTA实体对齐方法做了广泛的研究：首先仔细分析了现有benchmark的过程，并论证了其中存在一些缺陷，使得原始方法给出的实验结果之间可能存在不可对比的情况；另一方面，作者怀疑存在一种普遍的直接对测试集做超参数优化的处理，这种情况将会导致论文发表的实验性能的可靠性（价值）不那么高。因此，本文筛选了一种具有代表性的benchmark数据集样本，分析它的特征，同时，考虑到实体的表示对于系统性能的决定性影响，作者对实体表示的不同初始化方案也进行了测试。进一步的，作者使用共同的训练/验证/测试集在所有数据集和所有方法上进行了实验评估，从结果上看，虽然大多数情况下，SOTA方法都优于baseline，但是当数据集包含噪声时，则出现明显性能下降。

首先作者对现有方法的共性做了说明：

1.大多数方法基于GNN

2.使用基于表示学习的实体名特征

3.考虑了KG中不同类型的关系（在预处理过程中聚合不同类型的关系）

基于这些共性，作者选择了在近期工作中效果较好的关系感知-双图卷积网络（RDGCN），此外，也引入了深度图匹配共识（DGMC）出于以下两个因素：i.前面提到的工作未提到该方法 ; ii.在该方法没有使用关系类型信息的条件下，取得了非常好的性能。

实体对齐数据集分析：

最低0.47元/天解锁文章

开放知识图谱

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。