Zequn Sun et al. IJCAI 2018.
相关知识介绍
实体对齐(entity alignment)也被称为实体匹配(entity matching),主要用于消除异构数据中实体冲突、指向不明等不一致性问题,可以从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识。
Bootstrap是一种统计学上的估计方法,由Stanford统计学的教授Bradley Efron提出。Bootstrap是一类非参数Monte Carlo方法,其实质是对观测信息进行再抽样,进而对总体的分布特性进行统计推断。
个人想法:Bootstrap只是通过多次重抽样对已有样本进行了最大程度的利用,并没有额外增加样本。因为样本有限,抽样次数在足够多的情况下,Bootstrap可以最大程度地估计出当前样本的统计特性。
论文背景
知识图谱(Knowledge Graph,KG)在AI的众多领域中广泛应用,如问答(question answering)、语义搜索(semantic searching)和知识推理(knowledge reasoning)等。知识图谱中知识一般以三元组(h,r,t)的形式表示,其中h表示头实体(head entity),r表示关系(relation),t表示尾实体(tail entity)。为更好地捕捉知识图谱中的隐藏语义,将知识图谱中的元素(如实体、关系等)用低维的向量(embedding)表示。
单一的知识图谱很难满足多元知识的需要,一种有效的方式是通过实体对齐(entity alignment)将多种知识图谱的异构知识集成起来。但有限的训练数据会使得embedding不准确,实体对齐的精确度不高。因此本文提出了一个基于Bootstrap的实体对齐技术。
问题定义
实体对齐的目标是找到集合 A = ( x , y ) ∈ X × Y ∣ X ∼ R Y A = {(x,y)\in X\times Y|X\sim_RY} A=(x,y)∈X×Y∣X∼RY,其中 X X X表示 K G 1 KG_1 KG1的实体集, Y Y Y表示 K G 2 KG_2 KG2的实体集, ∼ R \sim_R ∼R是等价关系。 X ′ X^{'} X′和 Y ′ Y^{'} Y′是已有的训练集。
本文将实体对齐转换成分类问题,即用 Y Y Y的实体给 X X X的实体打标签,对应概率定义为 π ( y ∣ x ; θ ) = σ ( s i m ( v ⃗ ( x ) , v ⃗ ( y ) ) ) , \pi(y|x;\theta) = \sigma(sim(\vec{v}(x), \vec{v}(y))), π(y∣x;θ)=σ(sim(v(x),v(y))),其中, σ ( ⋅ ) \sigma(\cdot) σ(⋅)是sigmoid函数, s i m ( ⋅ ) sim(\cdot) sim(⋅)是余弦相似度度量, θ \theta θ是 K G 1 KG_1 KG1和 K G 2 KG_2 KG2的embedding参数。最终,本文的最大似然优化目标为