实体对齐 算法_丁香园大数据: 多知识图谱的融合算法探索 | 将门好声音

本文介绍了丁香园在融合多个知识图谱时的实践,探讨了不同规模图谱的融合策略。在小规模图谱融合中,通过First-Word-First-Sense、无监督融合等方式减少人工成本。随着图谱规模扩大,引入了基于知识表示和图结构特征的算法。对于完整图谱的融合,重点讨论了实体对齐方法,包括基于字符串相似性和知识表示的对齐技术。这些融合算法提升了NLP任务效果,为不同业务间的推荐和导流提供了可能。
摘要由CSDN通过智能技术生成

原标题:丁香园大数据: 多知识图谱的融合算法探索 | 将门好声音

本文内容来自将门自然语言处理社群

作者:杨比特

本文为将门好声音第34期。

作者是来自将门自然语言处理主题社群、丁香园NLP组的杨比特,本文主要会介绍在丁香园的各业务场景中,其团队融合多个知识图谱的实践,包括 图谱融合该采取什么策略,以及相关的算法论文调研。结果展示,多知识图谱的融合 对相关NLP任务效果带来不小的提升,为后续实现不同业务之间的导流和推荐也提供了想象力。

如果你也想与广大群友分享自己的研究工作、文章观点、出坑经验,点击“阅读原文”或联系将门小姐姐!只要内容合适,我"门"送你头条出道!

关于作者

杨比特,军事医学科学院硕士,负责丁香园大数据NLP组,目前专注于自然语言处理、知识图谱相关工作。

关于丁香园NLP组

专注医疗健康领域。构建医学知识图谱,并致力于相关技术在短文本理解、语义搜索、可解释推荐等任务上完成产业落地。为搜索、推荐和问答相关产品带来更优的结构化数据以及更好的NLP服务,助力业务增长。让健康更多,让生活更好。

在过去一年的文章中,我们讨论了很多关于知识图谱构建、结合NLP应用的方法。逐渐,这些算法开始深入到许多业务中的搜索、推荐工作中。很自然的做法是,为了契合各个业务的实际场景,我们会为每个业务方独立出各自的知识图谱,方便与业务方共同管理数据。

随着业务深入,很快会发现单个业务知识图谱因为规模小,在文本语义理解类任务上非常受限,此时需要将多个知识图谱进行融合,打通知识边界。比如在丁香园的场景中,有问诊、求职、电商、资讯、论坛等业务,背后使用同一套专业医学知识,而各自业务线又有丰富的职位、商品、科研等数据,另外可以在 OpenKG 找到其他领域或常识类图谱。融合之后不仅对相关NLP任务效果带来不小的提升,为后续实现不同业务之间的导流和推荐也提供了想象力。

那么, 两个(或多个)知识图谱的融合是怎么实现的呢?所谓融合,可以理解存在以下三种操作:

1)实体词在新的上下级位置上进行插入;

2)不同图谱中的同义实体词完成合并;

3)三元组关系随着实体词位置变化而动态调整。

本文我们来系统地看一下在不同阶段,图谱融合该采取什么策略,以及相关的算法论文调研。

一、小规模知识图谱如何进行图谱融合

业务图谱建立初期,图谱规模较小,基于知识表示的图谱融合方法壁垒比较多,基本以人工为主力,那么怎么才能尽可能的减少人工成本呢?

图谱融合的最早做法是利用First-Word-First-Sense,在WordNet中找到OOV的适当位置。First-Word-First-Sense策略就是将新的概念链接到其定义中的第一个与其词性相同,并源于WordNet中的同一gloss(术语词汇表)分组的词。这种方法在英文数据中适用性比较强,并且能得到比下面介绍的三种方法更好的效果,但这却取决于我们的图谱和WordNet的组织方式是否相同,即每个词语都有一个义原,并有明确的词性,每个概念标注了基于义原的定义以及词性、情感倾向、例句。实际上并不是所有的图谱都严格遵循语言学结构,因此对于领域图谱First-Word-First-Sense方法并不适用。

《VCU at Semeval-2016 Task 14: Evaluating similarity measures for semantic taxonomy enrichment》

VCU系统设计了三种无监督融合方式。首先,通过词性或实体类型进行候选集确定。其次,给每个候选集实体赋予一个分数,分数通过基于字典的相似性度量得到(分别使用Lesk,一阶向量,二阶向量三种方法进行分数计算)。最后,将得分最高的候选集分配给OOV;如果得分大于特定阈值,则标记为merge(这两个词是同义的),否则标记为attach,即OOV是synset的下位词。

Lesk度量通过计算两个定义之间出现的一个或多个连续单词的最长序列,来量化两个术语之间的相关性,最终权重为序列长度的平方,目的是较长重叠赋予更大的权重。

一阶向量由候选集与新实体定义中关联单词出现的次数构成,利用余弦相似性来量化相似程度。但缺点是向量矩阵

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值