文献:Large scale instance matching via multiple indexes and candidate selection
参考资料:《知识图谱:方法、实践与应用》
概要
该文献提出的模型简称VMI,方法的主要思想是运用多重索引与候选集合,其中将向量空间模型和倒排索引技术相结合,实现对实例数据的划分。该方法在保证了高质量匹配的情况下,减少了大规模实体相似度计算的次数,提高了整体匹配的效率。
方法描述
实例分类
该方法将实例信息分为以下6类:
- URI:实例唯一标识符,若两个实例有相同URI则判定两实例相同
- 元信息:元信息即实例的模式层信息,如实例所属的类,实例的属性等
- 实例名:实例名即现实世界中人们指代该实例的名称,可以通过RDFS:label属性获取,在匹配实体的过程中最直观的方法是比较两者的实例名
- 描述性属性信息:该值由实例的描述性语言构成,即RDFS:comment属性
- 可区分属性信息:这类属性不是实例的描述值,而是可以用来区分实例的属性值,例如属性为男的实例不与实例属性为女的实例匹配
- 邻居信息:实例可以根据不同的属性信息连接到不同的实例,例如Person1的属性haswife对应的信息是Person2,那么Person1和Person2就互为邻居
VMI实例匹配过程
传统的方法是根据实例的相关信息对来自不同信息源中的实例进行匹配,即给定实例i,计算i与候选信息源中每一个实例的相似度,选取匹配度最高的匹配实例。但对大规模知识图谱而言,暴力搜索开销过大,VMI方法先利用倒排索引的方法划分待选匹配集,然后在各个匹配集上进行匹配操作,从而缩小匹配空间,实现匹配性能的优化。下图是VMI实例匹配过程
名称向量:名称向量的获取过程为:首先检查实例是否含有rdfs:label属性,若无则找有无与名字属性相关的值,若无则选择URI 的一部分作为名称向量。构建名称向量的过程是:将抽取出的名称进行分词,对分词结果进行停用词过滤;根据分词结果统计词频并构建向量。
虚拟文档:实例的虚拟文档包含除名字以外的其他信息,虚拟文档由实例本身的本地描述信息向量和节点的信息向量构成,并取两者的线性组合,其中包含表示邻居文档的信息重要性的参数。
主要流程包含以下四个步骤:
(1)向量的构造与索引:VMI对实例进行向量化处理,然后对这些向量构建待排索引,即向量中的每一项都索引到前一步构造的向量中包含该项的实例。
(2)候选匹配集:利用倒排索引检索出候选的匹配对,再利用如下规则形成候选匹配集:
- 规则1:2个名称向量维数都大于5,且两者名称向量中至少有2个关键词相同
- 规则2:2个名称向量维数都大于5,且两者名称向量中至少有1个关键词相同
- 规则3:2个虚拟文档向量中至少有一个相同的关键词
(3)优化候选匹配集:根据用户自定义的属性对和值模式对候选匹配集合进行优化,去除不合理的候选匹配
(4)计算匹配结果:使用实例的向量余弦相似度计算实例对的相似度,通过预设的阈值提取出最终的实例匹配结果。