论文地址:XLORE2: Large-scale Cross-lingual Knowledge Graph Construction and Application
ABSTRACT
XLORE2 有423974个跨语言链接。相比于XLORE增加了更多的跨语言知识链接、跨语言属性匹配、细粒度类型推断。构建了实体链接系统 XLink 证明了XLORE2的有效性。
1 介绍
基于Wikipedia,有DBpedia、YAGO、BabelNet等
- YAGO:同一知识的跨语言语义统一性
- DBpedia:跨语言事实三元组的提取和对齐
- BabelNet:实体概念、意义和同义词集。
维基百科包含的英文知识最多,存在不同语言的知识分布不平衡的问题。为了解决这个问题,XLORE 成为了第一个中英文知识均衡的大规模跨语言知识库。它提供了一种通过利用维基百科中的跨语言链接来构建跨任何两种语言的知识图谱的新方法。虽然XLORE已经拥有比较均衡的双语知识量,但仍有大量缺失事实需要补充。主要包括以下三种:
- 英文实例和中文实例之间的跨语言链接数量有限。发现更多的跨语言链接有利于跨语言的知识共享;
- 每个语言版本都维护自己的一组infobox和自己的一组属性,有时还为相应的属性提供不同的值。因此,必须匹配不同语言的属性;
- 实例的类型信息不完整。例如,姚明不仅应该被分配到人、运动员和篮球运动员,还应该被分配到商人。
相应的工作包括:跨语言知识链接、跨语言属性匹配、细粒度类型推断
- 跨语言知识链接:链接不同语言的等效实例
- 跨语言属性匹配:实体属性因子图,匹配中英文的属性
- 细粒度类型推断:为没有类型信息的实例推断类型(区分类别的subClassOf & instanceOf的类型,使得分类更加准确)
为了证明XLORE的丰富性,构建了一个高效的实体链接系统XLINK(将文档中的mention链接到各种实体)
2 相关工作
- DBpedia:
- 语义网 + 关联数据技术
- 规模大、覆盖语言广
- 定期发布、有一个实时更新的知识库
- YAGO:
- 可扩展的语义知识库
- 有较高的数据质量
- 类型信息:使用 Wikipedia 中的类别来推断实体的类型信息,然后将该类型信息链接到 WordNet
- 跨语言属性匹配:将多语言 infobox 属性映射到规范关系,通过 Wikidata 将等效实体合并到规范实体中。
- Wikidata:
- 协作编辑的公共数据源
- 免费使用
- BabelNet:
- 大规模的高覆盖的多语言语义网络
- Wikipedia + WordNet
- 通过机器翻译,拓展资源较少的语言知识
- knowledge encode (可用于含知识信息的基于图的词义消歧)
XLORE是第一个中英文知识均衡的大型跨语言知识库。
XLORE2 提高了 XLORE 的数据质量,同时根据 XLORE 中现有的知识推断缺失的事实。
3 方法
- 数据预处理:通过信息抽取,解析出百科数据中的实例、概念、属性、模板
- 跨语言知识图谱构建
- 整合中文维基百科、百度百科、互动百科
--->
中文知识库(实体、概念、属性、infobox;包含融合和未融合的) - 英文维基百科
--->
英文知识库(实体、概念、属性、infobox) - 中英文维基链接
-->
跨语言链接 - 跨语言知识链接、跨语言属性匹配、细粒度类型推断
--->
跨语言知识图谱
- 整合中文维基百科、百度百科、互动百科
- 数据质量改善:通过两种 跨语言知识验证 的方法提高数据质量
- 预测两个概念之间的 subClassOf 关系是否正确
- 预测实例和概念之间的 instanceOf 关系是否正确
- 通过 细粒度类型推断 推测未融合的实例类型
- 应用
- 构建了在线系统 XLORE2,
- 构建了以使用XLORE2作为主要数据源的双语实体链接应用程序 XLink
4 跨语言知识图谱构建
4.1 跨语言知识链接
背景:XLORE2 包含 470 万个英文实例和 1000 万个中文实例。目前这两种语言的实例之间只有 424,000 个跨语言链接。
任务:扩展知识链接的任务就是:发现不同语言中的等效实例,并构建起链接。
问题:特征可扩展性差(只能把特定的词汇或结构当作特征)和链接稀疏(现存的跨语言链接很少)
解决方案:使用基于异构网络表示学习(异构网络嵌入 HNE)的方法,在同一个低维向量空间中表示跨语言实例,从而比较跨语言实例的等效性

- 构建异构网络:在【同义词对应的实例】、【实例之间的链接网络】、【实例和单词之间的语义网络】、【现有的跨语言链接对】之间,构建 文本网络
- 网络表示学习:学习中英文实例编码
- 跨语言链接发现:使用逻辑回归发现中英文之间新的链接
4.2 跨语言属性匹配
背景:不同语言的infobox 可能存在不一致的问题,因此我们选择基于英文维基对其他语言的实例属性进行属性对齐。英文百科中存在超过10万个属性,但是只有不到5%(约5000)的属性存在跨语言(中/英)的映射。
问题:多义属性 、同义属性、不同的单位制、时效性;单靠标签和值不足以进行跨语言属性匹配
解决方案:提出因子图模型,通过显式的链接属性来形式化关联。
左图表示不同语言的知识库的关系图,对角线分隔不同的语言,上层表示属性集、下层表示文章集,上下层之间的链接表示文章使用了属性,属性之间的链接(红色)表示现有的跨语言链接。
右图表示属性因子图,上层表示观测变量 x i x_i xi, 下层表示隐藏变量 y i y_i yi, x i x_i xi 表示不同属性的配对, y i y_i yi 表示 x i x_i xi 链接是否应存在(1或0);f、g、h 表示三类将关系转换为可计算特征的特征函数。
4.3 跨语言分类对齐
任务: 对一种语言中的每个概念匹配出另一种语言中最相关的几个概念。
问题: 基于双语主题模型的向量相似性方法只考虑概念的文本上下文,而完全忽略了明确的概念相关性,例如概念与其在文本中的共现词之间的关系,或者分类法中祖先-后代关系的概念之间的关系。
解决方案:直接利用维基百科提供的类别之间的跨语言链接作为概念之间的跨语言链接
5 数据质量改进
5.1 跨语言知识验证
使用一种基于跨语言知识验证的动态自适应增强模型,以迭代地增强分类关系预测的性能。通过学习 s u b C l a s s O f subClassOf subClassOf 预测函数和 i n s t a n c e O f instanceOf instanceOf 预测函数将分类关系预测作为一个二元分类问题来处理。
用于跨语言分类推导的动态自适应增强(DAB)模型如下,基于决策树的二元分类器作为基本学习器

5.2 细粒度类型推断
所谓细粒度的类型如下图例子所示:

实现方案为:构建对不同级别的共现信息和标记信息进行编码的异构网络。然后我们通过网络嵌入方法联合学习实例 entity、词 word 和类型 type 表示。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JqibfHqi-1627655755759)(https://i.loli.net/2021/07/30/s5XAmTvFpdkWIuZ.png)]
6 应用
XLink 是基于 XLORE 的实体链接应用
一般的实体链接包含:mention detection 和 entity linking 两个步骤
- mention detection:使用解析算法来搜索预先构建的字典来检测提及,使用 Aho-Corasick 算法来解析mention并引入词和实体嵌入,有较高的系统效率。
- entity disambiguation:使用了一种生成概率实体消歧方法,无监督
7 系统和数据统计
XLORE2 的中英文数据统计(包含实例、概念、属性),如下图所示:
XLORE 使用 RDF 形式存储知识,支持基于关键字和SPARQL查询。XLink 是一个无监督的双语实体链接系统。它进行 mention parse 和实体消歧以将输入文档中的提及链接到 XLORE2 中的实体。
XLORE 网址:https://xlore.org
XLink 网址:https://xlink.xlore.org
8 总结
通过三种方法根据 XLORE 中的现有事实推断缺失的事实:
- 利用异构网络嵌入方法和基于回归的模型来预测新的跨语言链接。
- 提出了实体-属性因子图来找到英文和中文之间的对应属性,进行跨语言属性匹配
- 利用异构网络嵌入方法来自动查找实例和概念之间缺失的 i n s t a n c e O f instanceOf instanceOf 关系,进行细粒度类型推断