1 目的
该论文主要用于知识图谱补全的一个子任务,实体类型推测。提出一个方法为AttEt,AttEt通过聚集具有类型特定权重的给定实体的邻域知识,在实现时采用entity-level和neighborhood-level,对于entity-level采用基础的TransE进行训练,而对于neighborhood-level采用注意力机制,对于不同的neighbor赋予不同的权值。
2 模型
2.1 模型结构图
f i j = { + 1 , ( e i , r i j , e i j ) is hold 即出度 − 1 , ( e i j , r i j , e i ) is hold 即入度 f_{i j}= \begin{cases}+1, & \left(e_{i}, r_{i j}, e_{i j}\right) \text { is hold 即出度 } \\ -1, & \left(e_{i j}, r_{i j}, e_{i}\right) \text { is hold 即入度}\end{cases} fij={+1,−1,(ei,rij,eij) is hold 即出度 (eij,rij,ei) is hold 即入度
2.2 权重系数
作为该模型的第一步,需要求当前实体即target_entity周围neighborhod的权重,假设当前实体为 e i e_{i} ei,需要求出当前节点 i i i周围的权重 α i j \alpha_{ij} αij。对于权重 α i j \alpha_{ij} αij,其求解的过程类似于softmax,公式如下图所示:
α i , j = 1 z i ( W q t e i ) ⊤ W k ( e i j + f i j ∗ r i j ) \alpha_{i, j}=\frac{1}{z_{i}}\left(\mathbf{W}_{q} \mathbf{t}_{e_{i}}\right)^{\top} \mathbf{W}_{k}\left(\mathbf{e}_{i j}+f_{i j} * \mathbf{r}_{i j}\right) αi,j=zi1(Wqtei)⊤Wk(eij+fij∗rij)
对于 z i z_{i} zi求解公式为:
z i = ∑ ( r i j , e i j ) ∈ N ( e i ) ( W q t e i ) ⊤ W k ( e i j + f i j ∗ r i j ) , j ∈ [ 1 , … , n ] z_{i}=\sum_{\left(r_{i j}, e_{i j}\right) \in \mathcal{N}\left(e_{i}\right)}\left(\mathbf{W}_{q} \mathbf{t}_{e_{i}}\right)^{\top} \mathbf{W}_{k}\left(\mathbf{e}_{i j}+f_{i j} * \mathbf{r}_{i j}\right), j \in[1, \ldots, n] zi=∑(rij,eij)∈N(ei)(Wqtei)⊤Wk(eij+fij∗rij),j∈[1,…,n]
其中 W k ∈ R d × d \mathbf{W}_{k} \in \mathbb{R}^{d \times d} Wk∈Rd×d , W q ∈ R d × d , t e i 表 示 当 前 t a r g e t − e n t i t y 的 t y p e \mathbf{W}_{q} \in \mathbb{R}^{d \times d}, t_{e_{i}}表示当前target-entity的type Wq∈Rd×d,tei表示当前target−entity的type
2.3 平滑因子
关系稀疏:实体的neighborhod(与实体 e i e_{i} ei相关联的实体 e i j e_{ij} eij)非常的少, 但是实体的 t y p e type type较多,导致对于 t y p e type type进行预测相关信息较为少,他们的推理缺乏邻域的相关语义支持 。例如:Tina_Turner只有两个 neighbors,分别为 (Tina_Turner, hasMusicalRole, wordnet_vocal_music_107282006)和 (Tina_Turner, hasGender, female)。但是却有70多个entity_type。显然,仅靠关系稀疏实体的小范围邻域是很难支持所有实体类型的。
为了提高模型的鲁棒性,引入平滑因子:
α i , j ′ = ( 1 − λ ) α i , j + λ 1 n \alpha_{i, j}^{\prime}=(1-\lambda) \alpha_{i, j}+\lambda \frac{1}{n} αi,j′=(1−λ)αi,j+λn1
当 λ = 0 \lambda=0 λ=0有利于关系密集的实体, λ = 1 \lambda=1 λ=1有利于关系稀疏的实体。对于具有不同稀疏度的数据集,有不同的最优 λ \lambda λ。
2.4 neighbor-level 表示(实体相关的neighbor)
H neighbor = ∑ ( r i j , e i j ) ∈ N ( e i ) α i , j ′ W v ( e i j + f i j ∗ r i j ) \mathbf{H}^{\text {neighbor }}=\sum_{\left(r_{i j}, e_{i j}\right) \in \mathcal{N}\left(e_{i}\right)} \alpha_{i, j}^{\prime} \mathbf{W}_{v}\left(\mathbf{e}_{i j}+f_{i j} * \mathbf{r}_{i j}\right) Hneighbor =∑(rij,eij)∈N(ei)αi,j′Wv(eij+fij∗rij), W v ∈ R d × d \mathbf{W}_{v} \in \mathbb{R}^{d \times d} Wv∈Rd×d, α i , j ′ \alpha_{i, j}^{\prime} αi,j′为平滑因子处理之后的权重系数。
2.5 entity-level表示
entity-level实体涉及的公式: H = σ ( W e i + b ) \mathbf{H}=\sigma\left(\mathbf{W e}_{i}+\mathbf{b}\right) H=σ(Wei+b),对于entity-level内容,采用简单的TransE方法,因为仅仅采用baseline而不是采用TransE,使用最简单的Trans系列即可。
2.6 entity-type预测
对于entity-type预测采用融合 H neighbor \mathbf{H}^{\text {neighbor }} Hneighbor 和 H \mathbf{H} H,其公式如下:
t ^ e i = MLP ( [ H ; H neighbor ] ) \hat{\mathbf{t}}_{e_{i}}=\operatorname{MLP}\left(\left[\mathbf{H} ; \mathbf{H}^{\text {neighbor }}\right]\right) t^ei=MLP([H;Hneighbor ])
2.7 预测函数
我们定义了预测函数来衡量实体 e i e_{i} ei与其候选实体类型 t e i t_{e_{i}} tei之间的匹配得分,如
s ( e i , t e i ) = ∥ t ^ e i − t e i ∥ 2 s\left(e_{i}, t_{e_{i}}\right)=\left\|\hat{\mathbf{t}}_{e_{i}}-\mathbf{t}_{e_{i}}\right\|_{2} s(ei,tei)=∥∥t^ei−tei∥∥2
2.8 损失函数
L = ∑ ( e i , t e i ) ∈ Δ e i ∑ ( e i , t e i ′ ) ∈ Δ e i ′ [ s ( e i , t e i ) − s ( e i , t e i ′ ) + γ ] + \mathcal{L}=\sum_{\left(e_{i}, t_{e_{i}}\right) \in \Delta_{e_{i}}} \sum_{\left(e_{i}, t_{e_{i}}^{\prime}\right) \in \Delta_{e_{i}}^{\prime}}\left[s\left(e_{i}, t_{e_{i}}\right)-s\left(e_{i}, t_{e_{i}}^{\prime}\right)+\gamma\right]_{+} L=∑(ei,tei)∈Δei∑(ei,tei′)∈Δei′[s(ei,tei)−s(ei,tei′)+γ]+,其中 ∣ x ∣ + = max ( 0 , x ) |x|_{+}=\max (0, x) ∣x∣+=max(0,x), γ > 0 \gamma>0 γ>0 边际超参数, ( e i , t e i ) \left(e_{i}, t_{e_{i}}\right) (ei,tei) 和 ( e i , t e i ′ ) \left(e_{i}, t_{e_{i}}^{\prime}\right) (ei,tei′)分别表示正例和反例。 Δ e i \Delta_{e_{i}} Δei正实例集合, Δ e i ′ \Delta_{e_{i}}^{\prime} Δei′负实例集合。
3 总结
3.1 实验对比
- AttEt without Neighbors:不使用Neighbor-level信息
- AttEt without Attention: α i j ′ = 1 n \alpha_{i j}^{\prime}=\frac{1}{n} αij′=n1
3.2 type类型
- Subtype:子tyoe
- Intersection:A和B至少有一个关联的neighbor
- Disjunction:A和B没有关联的neighbor