以下介绍的模型,其表达能力和复杂度依次递增。而且每一个模型利用打分函数g去评估一个三元组triplet(entity1,relation,entity2)是正确的的可能性。
[2011]A . Bordes, J. Weston, R. Collobert, and Y. Bengio. Learning structured embeddings of knowledge bases. In AAAI
Distance Model。该文提出的模型给三元组关系打分,通过将左边和右边的entities分别映射到一个共同的空间(利用一个关系专属(relation-specific)的特定的映射矩阵),然后计算两个entities之间的L1 距离。The scoring function for each triplet has the following form:
如果entities有某种relation的可能性很大,那这个距离应该为0.也就是说,越正确的三元组其得分越小。
模型缺点:WR,1和WR2互相之间没有交叉,使得两个entities被独立地映射。
[2008]R. Collobert and J.Weston. A unified architecture for natural language processing: deep neural networks with multitask learning. In ICML 这个文章只是提出了类似于下面的模型
Single Layer Model。这个模型隐性地将entity vectors 连接在一起,通过一个标准的、单层的神经网络的非线性特征。以此来解决上一个模型的问题。The scoring function has the following form:
function.
这个模型是张量神经网络的一个特例:当tensor被设置成0.
模型缺点:该模型的非线性只提供了非常弱的两个entities之间的交叉,并且带来了更难以解决的优化问题。
[2012]A. Bordes, X. Glorot, J. Weston, and Y. Bengio. Joint Learning of Words and Meaning Representations for Open-Text Semantic Parsing. AISTATS
Hadamard Model. 通过多个矩阵相乘积-Hadamard乘积,解决上个模型的若交互问题。The scoring function is as follows:
relations
其中eR是唯一一个与关系相关的特定参数。
知识背景:矩阵A,B的Hadamard乘积定义为二者对应位置的乘积。即设A=(aij) (m×n),B=(bij) (m×n),则二者的Hadamard乘积为
C=(aij*bij) (m×n)
该模型的具体原理如下图及其公式:
[2012] R. Jenatton, N. Le Roux, A. Bordes, and G. Obozinski. A latent factor model for highly multi-relational data. In NIPS
Bilinear Model.这个模型改进了弱实体向量交互的问题,通过一个关系专属(relation-specific)的 bilinear 形式。The scoring function is as follows:
where WR 属于 R[d*d] are the only parameters of relation R’s scoring function。
该模型改善了前两个模型,因为它合并两个 entity vectors的交互,用一个简单、有限的办法。但是,该模型的瓶颈在于表达能力和word vector的多个参数。
[2013]Danqi Chen,Richard Socher,Christopher D.Manning,Andrew Y.Ng.Learing New Facts From Knowledge Bases With Neural Tensor Netwoks and Semantic Word Vectors
[2013]Richard Socher,Danqi Chen,Christopher D.Manning,Andrew Y.Ng.Reasoning with Neural Tensor Networks for Knowledge Base Completion
以上两篇文章基本一样,后者是对前者的扩充,具体说明。
主旨:建立“神经张量网络”,基于知识库如WrodNet,推理出entity names之间的关系三元组(知识库里没有直接关系的两个entities),从而实现知识库的completion。
主要贡献:
- (1) 提出一个神经张量网络moedel。“introduce a model that can accurately predict additional true facts using only an existing database”。
- (2) 提出一个新的方法去表示知识库里的entities,包含两个改进:用word vectors表示entity(entity 由几个词组成);利用预训练出的vectors初始化word vectors
- 。比如一个entity“Bank of China"可以表示为bank和China的各自的词向量的和平均。而以前的表示方法是entity“Bank of China"和entity“China"的各自的词向量是独立的,没有任何关联。“The second contribution is to introduce a new way to represent entities in knowledge bases. Previous work represents each entity with one vector”
本文提出的神经张量网络的思路是前面所提到的其他models的结合,具体model公式如下:
模型的比较结果,依据正确率:
推理结果举例:
idea of multiple word vectors per word as in Huang et al.