笔记整理:曲晏林,天津大学硕士,研究方向为大模型
论文链接:https://arxiv.org/abs/2312.12108?context=cs.AI
发表会议:AAAI 2024
1. 动机
知识图谱(Knowledge Group, KG)由三元组(头部实体、关系、尾部实体)组成,广泛应用于下游任务,如问答和推荐系统。现有的KG如NELL和Knowledge Vault以自动方式连续提取三元组,这不可避免地引入了噪声。检测这些错误有可能提高KG的质量。
现有的KG误差检测工作可分为基于嵌入模型和基于路径模型。前者根据实体和关系的表示学习置信度分数。后者使用实体之间的路径来评估三元组的置信度。不同于链接预测的任务或三元组分类,错误检测侧重于检测整个无监督KG中的错误三元组,旨在捕获三元组的方差并准确估计其置信度。
目前的KG误差检测模型面临着巨大的挑战,因为噪声模式不可用,难以获得准确标记的噪声样本进行鲁棒监督。替换实体的负抽样方法在以往的研究中被广泛使用,尤其是基于嵌入的模型。然而,现实世界的场景经常引入与正确样本相关的令人困惑的噪声语义。因此,现有的工作需要一种有效的方法来识别更真实的噪声,并在KG中提取文本信息的全部潜力以进行错误检测。
2. 贡献</