Unsupervised Embedding Enhancements of Knowledge Graphs using Textual Associations
摘要
知识图谱嵌入对于表示和学习多关系数据是有帮助的,最近嵌入模型表现出从现有的数据库推断新事实的高效性。然而,这些精确的结构数据通常在数量上和范围上有限。因此,为了为了完整优化嵌入,考虑更广泛可用的信息源是重要的,比如文本。这篇文章描述了一个无监督的方法来兼容文本信息通过关联单词的嵌入来增强实体嵌入。该方法并不修改知识图谱嵌入的优化目标,允许和现有的嵌入模型集成。考虑文本数据的两种不同形式,针对每种情况提出了不同的嵌入增强。第一种情况下,每个实体有一个相关联的文本文档描述它。第二种情况下,没有可用的文本文档,而是实体以单词或短语的形式出现在文本片段的非结构化语料库中。实验表明,当应用于多种不同的知识图嵌入模型时,这两种方法都可以改善链接预测任务。
本文模型
关系提取是指通过识别相关文本文档中提到的新三元组来扩展现有知识图谱。大多数关系提取方法都需要远程监控,以便进行训练。启发式技术通常用于以这种方式自动对齐现有知识图谱和文本。
然而,因为一个句子中两个实体的同时出现并不一定意味着该句子说明了它们之间的关系,这导致了高噪音。
本文提出的方法针对两种情况:
- 有一段文本针对某个特定的实体
- 一段文本没有特定的主题,但是包含实体。
针对第一种情况:如图一所示
图中是实体描述和非结构化的语料库的展示,分别对应文中提到的第一类和第二类情况。
对于实体描述这种情况,可以使用如下公式获得实体的嵌入:
e i = A i W ∥ A i ∥ 1 \mathbf{e}_{i}=\frac{\mathbf{A}_{i} \mathbf{W}}{\left\|\mathbf{A}_{i}\right\|_{1}} ei=∥Ai∥1AiW
式中,W为 n w ∗ d n_w * d nw∗d的单词向量矩阵, n w n_w nw是单词库中的单词数, d d d是嵌入向量的维度。 A i A_i Ai是个 n w n_w nw维的向量, A i k A_{ik} Aik表示 w k w_k wk在实体的描述文本中出现的次数。
上式存在的一个问题是,描述中的所有单词都被同等程度的对待,事实上,某些词比其他词更适合预测一段关系。文中引入了 B B B矩阵来解决该问题, B j k B_{jk} Bjk表示单词 w k w_k wk在预测关系 r j r_j rj时的重要性。那么实体的嵌入向量可表示为:
e i ( r j ) = ( A i ⊙ B j ) W ∥ A i ⊙ B j ∥ 1 \mathbf{e}_{i}^{\left(r_{j}\right)}=\frac{\left(\mathbf{A}_{i} \odot \mathbf{B}_{j}\right) \mathbf{W}}{\left\|\mathbf{A}_{i} \odot \mathbf{B}_{j}\right\|_{1}}