网络实体对齐是指给定两个网络,把两个网络中等价的实体合并。实体对齐在很多领域都有重要应用,比如,跨平台社交网络的用户对齐可以用于用户画像、用户兴趣挖掘,跨语言知识图谱的实体对齐可以辅助机器翻译、跨语言信息检索。
传统的方法在做实体对齐任务时主要有两种思路。
一种是基于实体的标签信息,例如社交网络的用户昵称、知识图谱的实体名称。其效果在实际应用时并不理想,例如社交网络中,用户昵称存在重名、匿名和多用户名的问题;在知识图谱中,跨语言的实体名称依赖于机器翻译的效果。
另一种思路是基于人工定义特征,例如知识图谱中两个实体的类别是否一致、社交网络中两个用户的公共邻居有多少。这种方法需要人工针对具体问题仔细设计特征,但是这些特征大多数很难迁移到其他场景。
近几年,基于嵌入表示学习的方法越来越多地受到关注,给定一个网络,嵌入表示学习可以把实体映射为低维向量空间中的一个点。其中,知识图谱领域以TransE为代表,社交网络领域以Deepwalk为代表,这两种方法都是受到词嵌入的Skip-gram模型的启发而产生的。与网络实体对齐类似,自然语言处理中也存在跨语言a词对齐问题。在嵌入表示的方法提出之前,词对齐和网络实体对齐基本上处于独立发展的状态,嵌入表示的方法提出以后,两者的发展表现出很多的相似性。
基于嵌入表示的对齐模型在最开始提出的时候基本上遵循两种思路,这两种思路都基于单一网络的嵌入表示。
第一种思路是把一些预先匹配好的实体合并,从而把两个网络合并为一个网络,进而用单一网络的嵌入表示进行嵌入。这种方法在知识图谱中以JE [1](2016年CCKS)为代表,在社交网络中以IONE [2](2016年IJCAI)为代表。
第二种思路是先用单一网络的嵌入模型分别训练两个网络,然后用一些预先匹配好的实体训练一个线性变换对齐两个向量空间。这种方法在知识图谱中以MTransE [3](2017年IJCAI)为代表,在社交网络中以PALE [4](2016年IJCAI)为代表。具体实现的时候(如MTransE)用单一网络嵌入损失函数和向量映射的损失函数求和一起训练也能达到类似的效果。