初识知识融合

技术流程:主要包括本体对齐和实体匹配
在这里插入图片描述
技术详情
1. 数据预处理:统一实体的描述方式,语法正规化,数据正规化
2. 分块:将可能组成实体对的放到一块,常用的方法有基于hash函数,邻近分块
Falcon-AO:基于分而治之策略的大型本体匹配方法,包括三个阶段:划分本体,匹配分块,发现实体间的映射(本体是实体的抽象层次,比如人,书,国家)
3. 均衡块中的实体数目,最简单的方法是map-reduce操作
4. 记录链接:根据属性相似度通过聚合,聚类,表示学习等方式得到实体相似度,相似度的计算方法主要有三种类型,编辑距离,集合相似度计算和向量相似度计算
知识嵌入—TransE模型:基于实体的多个三元组表示度量实体之间的相似度,该模型希望对应的三个三元组之间存在相似或者相同的迁移关系
链接方式:优先按照训练集直接匹配,否则,将两个知识图谱中相似的实体进行链接,实现两个知识图谱嵌入到同一个空间
5. 结果评估:算法的运行时间,以及准确率,召回率,F

技术发展综述
将知识融合技术分为实体链接和实体合并

  1. 实体链接:将从文本中抽取的实体链接到知识库中对应的正确实体的操作。处理过程:抽取实体指标,实体消歧(知识库中的同名实体是否有不同的含义)和共指消歧(知识库中是否有其他名称表示该实体),实体链接到正确的位置。技术上主要依赖实体消歧(不同的人有相同的姓名)和共指消歧(同一个人有不同的称呼,也叫对象对齐,实体匹配,实体同义)
    1) 实体消歧:主要采用聚类法,关键在于评估实体和指标的相似度(实体为聚类中心,聚类指标,认为聚类到一起的指标对应的实体为歧义实体),常用的方法有四种:空间向量模型(实体的上下文),语义模型(实体的上下文语义),社会网络模型(利用关联实体的关系构建指标网络),百科知识模型(网站超链接)
    2) 共指消歧:主要的算法有Hobbs,向心理论,消解算法,将该问题抽象成聚类问题时,关键在于评估实体之间的相似度(实体指称为中心,按照相似度聚类实体,认为聚类到一起的实体的实体指称为歧义指称)。
  2. 知识合并:包括合并外部知识库和合并关系数据库
    1) 外部知识库:数据层面和模式层面
    2) 关系数据库:主要通过将关系数据库的数据转换成三元组(RDF)进行合并
    工具简介
    领域 语言 主页 备注
    Falcon-AO 本体对齐 Java http://ws.nju.edu.cn/falcon-ao/
    语言匹配,考虑字符串的相似度,图结构
    Dedupe 实体匹配 Python https://github.com/dedupeio/dedupe

Limes 实体匹配 Java https://github.com/dice-group/LIMES
三角不等式过滤,适合大规模文本
Silk 实体匹配 Python https://github.com/silk-framework/silk

案例

  1. 实体融合:首先进行数据预处理,再通过训练数据集推导得到匹配规则,根据匹配规则生成候选匹配对,通过置信度过滤候选匹配对(EM迭代过程:)
  2. 实体链接:严格匹配和别名匹配(wikidata扩展别名)
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值