技术流程:主要包括本体对齐和实体匹配
技术详情
1. 数据预处理:统一实体的描述方式,语法正规化,数据正规化
2. 分块:将可能组成实体对的放到一块,常用的方法有基于hash函数,邻近分块
Falcon-AO:基于分而治之策略的大型本体匹配方法,包括三个阶段:划分本体,匹配分块,发现实体间的映射(本体是实体的抽象层次,比如人,书,国家)
3. 均衡块中的实体数目,最简单的方法是map-reduce操作
4. 记录链接:根据属性相似度通过聚合,聚类,表示学习等方式得到实体相似度,相似度的计算方法主要有三种类型,编辑距离,集合相似度计算和向量相似度计算
知识嵌入—TransE模型:基于实体的多个三元组表示度量实体之间的相似度,该模型希望对应的三个三元组之间存在相似或者相同的迁移关系
链接方式:优先按照训练集直接匹配,否则,将两个知识图谱中相似的实体进行链接,实现两个知识图谱嵌入到同一个空间
5. 结果评估:算法的运行时间,以及准确率,召回率,F
技术发展综述
将知识融合技术分为实体链接和实体合并
- 实体链接:将从文本中抽取的实体链接到知识库中对应的正确实体的操作。处理过程:抽取实体指标,实体消歧(知识库中的同名实体是否有不同的含义)和共指消歧(知识库中是否有其他名称表示该实体),实体链接到正确的位置。技术上主要依赖实体消歧(不同的人有相同的姓名)和共指消歧(同一个人有不同的称呼,也叫对象对齐,实体匹配,实体同义)
1) 实体消歧:主要采用聚类法,关键在于评估实体和指标的相似度(实体为聚类中心,聚类指标,认为聚类到一起的指标对应的实体为歧义实体),常用的方法有四种:空间向量模型(实体的上下文),语义模型(实体的上下文语义),社会网络模型(利用关联实体的关系构建指标网络),百科知识模型(网站超链接)
2) 共指消歧:主要的算法有Hobbs,向心理论,消解算法,将该问题抽象成聚类问题时,关键在于评估实体之间的相似度(实体指称为中心,按照相似度聚类实体,认为聚类到一起的实体的实体指称为歧义指称)。 - 知识合并:包括合并外部知识库和合并关系数据库
1) 外部知识库:数据层面和模式层面
2) 关系数据库:主要通过将关系数据库的数据转换成三元组(RDF)进行合并
工具简介
领域 语言 主页 备注
Falcon-AO 本体对齐 Java http://ws.nju.edu.cn/falcon-ao/
语言匹配,考虑字符串的相似度,图结构
Dedupe 实体匹配 Python https://github.com/dedupeio/dedupe
Limes 实体匹配 Java https://github.com/dice-group/LIMES
三角不等式过滤,适合大规模文本
Silk 实体匹配 Python https://github.com/silk-framework/silk
案例
- 实体融合:首先进行数据预处理,再通过训练数据集推导得到匹配规则,根据匹配规则生成候选匹配对,通过置信度过滤候选匹配对(EM迭代过程:)
- 实体链接:严格匹配和别名匹配(wikidata扩展别名)