ConvE:Convolutional 2D Knowledge Graph Embeddings

论文:Convolutional 2D Knowledge Graph Embeddings

1 介绍

1.1 提出原因

之前提出的模型如disMult,Trans系列模型,成为浅层模型,虽然比较简单,参数较少、训练模型速度较快,但是这些模型相比于深的模型,更少能够抓到复杂的信息。因此,提出模型ConvE模型,利用卷积的方式进行知识图谱补全,能够适用于更加复杂的图。

在浅层模型中增加特征数量的唯一方法,就是增加embedding的维度,但是随之而来存在一个问题,不能扩展到更大的知识图谱,因为嵌入参数的总数与图中实体和关系的数量成正比。此外,以往的多层知识图嵌入体系结构都是全连接的,容易出现过拟合问题。

1.2ConvE优势

ConvE采取卷积的形式,由于高度优化的GPU实现,它的参数效率和计算速度快。由于其的普遍使用,在训练多层卷积网络时,已经建立了鲁棒方法来控制过拟合。在本文中,我们引入了ConvE模型,该模型使用二维卷积在嵌入上预测知识图中的缺失环节。ConvE是用于链接预测的最简单的多层卷积体系结构:它由单个卷积层、嵌入维数的投影层和内积层定义。相比于GCN框架仅限于无向图,而知识图自然是有向的,并且可能受到限制的内存需求的影响。

1.3 贡献

  • 介绍了一个简单的,有竞争力的2D卷积链路预测模型,ConvE。
  • 开发一个1-N的评分程序,加速三倍的训练和300倍的评估。
  • 系统地研究了在常用的链接预测数据集中报告的逆关系测试集泄漏,在必要时引入数据集的鲁棒版本,使其无法用简单的基于规则的模型来解决。

2 模型

2.1 1D vs 2D Convolutions

1D Convolutions
([a a a] ; [b b b]) = [a a a b b b]
若采用filter, 其 size k = 3, 结果为维度 1 × 4 1\times4 1×4

2D Convolutions
( [ a a a a a a ] ; [ b b b b b b ] ) = [ a a a a a a b b b b b b ] \begin{pmatrix} \begin{bmatrix} a & a & a \\ a& a & a\\ \end{bmatrix}; \begin{bmatrix} b&b&b\\ b&b&b\\ \end{bmatrix} \end{pmatrix}= \begin{bmatrix} a&a&a\\ a&a&a\\ b&b&b\\ b&b&b\\ \end{bmatrix} ([aaaaaa];[bbbbbb])=aabbaabbaabb
若采用filter, 其 size k = 3 × 3 \times3 ×3, 结果为维度 2 × 1 2\times1 2×1
二维卷积运算能够模拟a和b之间更多的交互作用(与m, n, k成比例的动作)。因此,与一维卷积相比,二维卷积能够提取两个嵌入之间更多的特征交互作用

2.2 模型图

在这里插入图片描述
模型讲解:

  • 头实体和关系的one-hot编码进行embedding,维度为k
  • 将头实体和关系的embeding 进行reshape,并拼接
  • 进行卷积操作
  • 全连接操作,映射维度为k
  • 将全连接的结果乘以所有embedding结果,即实现1-N的评分方法,也就是说结果乘所有实体。

2.3 评分函数

在这里插入图片描述
其中 r r ∈ R k , e ‾ s , r ‾ r 分 别 代 表 e s , r r , 2 D 进 行 r e s h a p e 结 果 。 e s , r r ∈ R k , e ‾ s , r ‾ r ∈ R k w × k h , 其 中 k = k w × k h \mathbf r_{r}\in \mathbb R _{k}, \overline \mathit e_{s},\overline \mathit r_{r}分别代表e_{s}, r_{r},2D进行reshape结果。e_{s}, r_{r}\in\mathbb R_{k},\overline \mathit e_{s},\overline \mathit r_{r}\in \mathbb R^{k_{w}\times k_{h}},其中k=k_{w}\times k_{h} rrRk,es,rres,rr,2Dreshapees,rrRk,es,rrRkw×kh,k=kw×kh

2.4 损失函数

在这里插入图片描述

2.5 正则化

我们通过在几个阶段使用drop out来规范我们的模型,防止过拟合。 特别地,我们在嵌入、卷积后的feature map以及全连通层后的hidden units上使用了dropout。此外,我们BatchNorm进行归一化,在卷积输入之前,卷积输入之后,
feature map之后进行BatchNorm归一化。

3 代码

论文原作代码使用一个框架难以理解,找到替代的一个代码。
参考代码:点我
模型代码

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.nn import  Parameter
class ConvE(nn.Module):
    def __init__(self, config):
        super(ConvE, self).__init__()
        self.config = config
        self.ent_embs = nn.Embedding(self.config.ent_num, self.config.dim)
        self.rel_embs = nn.Embedding(self.config.rel_num, self.config.dim)
        self.input_drop = nn.Dropout(config.inputDrop)
        self.hide_drop = nn.Dropout(config.hideDrop)
        self.feature_drop = nn.Dropout2d(config.featureDrop)
        self.conv = nn.Conv2d(1, 32, (3, 3), bias=True)
        self.bn0 = nn.BatchNorm2d(1)
        self.bn1 = nn.BatchNorm2d(32)
        self.bn2 = nn.BatchNorm1d(config.dim)
        self.fc = nn.Linear(config.hide_size, config.dim)
        self.dim = config.dim #dim = 200
        self.dim1 = config.dim1  #dim1 = 20
        self.dim2 = self.dim // self.dim1 # dim2 = 10
        self.loss = nn.BCELoss()
        self.register_parameter('b',Parameter(torch.zeros(config.ent_num)))
        self.init()
        
    def init(self):
        nn.init.xavier_normal_(self.ent_embs.weight.data)
        nn.init.xavier_normal_(self.rel_embs.weight.data)
    def forward(self, e1, rel):
        e1_emb = self.ent_embs(e1).view(-1, 1, self.dim1, self.dim2)#el_emb; batch*1*20*10
        rel_emb = self.rel_embs(rel).view(-1, 1 ,self.dim1, self.dim2)
        
        conv_input = torch.cat([e1_emb, rel_emb], dim = 2)#con_input: bath*1*40*10
        conv_input = self.bn0(conv_input)
        x = self.input_drop(conv_input)
        x = self.conv(conv_input)
        x = self.bn1(x)
        x = F.relu(x)
        x = self.feature_drop(x)
        x = x.view(x.shape[0], -1)#bacth*hide_size(38*8*32 = 9728)
        x = self.fc(x)
        x = self.hide_drop(x)
        x = self.bn2(x)
        x = F.relu(x)#batch*dim          ent_ems.weight   dim*ent_num
        #print(x.shape, self.ent_embs.weight.shape)
        x = torch.mm(x, self.ent_embs.weight.transpose(1, 0))
        x += self.b.expand_as(x)
        pred = torch.sigmoid(x)
        return pred
        
### 回答1: ConvE模型是一种基于卷积神经网络的知识图谱嵌入模型,其评分函数可以表示为: $$f(h, r, t) = \textbf{softmax}(\textbf{vec}(\textbf{M}(\textbf{e}_h \oplus \textbf{r})\textbf{W})) \cdot \textbf{vec}(\textbf{e}_t)$$ 其中,$h$表示头实体,$r$表示关系,$t$表示尾实体。$\textbf{e}_h$、$\textbf{r}$、$\textbf{e}_t$分别表示头实体、关系、尾实体的嵌入向量,$\oplus$表示拼接操作,$\textbf{M}$表示卷积操作,$\textbf{W}$表示投影矩阵,$\textbf{vec}$表示将矩阵拉成向量的操作。 ConvE模型的评分函数将头实体、关系拼接成一个矩阵作为卷积操作的输入,通过卷积操作将矩阵映射到另一个矩阵上,再通过投影矩阵将卷积后的矩阵映射到一个向量上,最后与尾实体的嵌入向量做点积并进行softmax操作得到最终的评分值。 ### 回答2: ConvE模型的评分函数是通过一个卷积操作将实体和关系的嵌入向量进行合并,并最终通过一个全连接层将其映射到预测的得分空间。具体而言,ConvE模型的评分函数包括以下几个步骤: 首先,将头实体和关系的嵌入向量进行拼接,然后将其作为输入输入到一个二维卷积层。这个二维卷积层可以捕捉头实体和关系之间的局部特征关系。卷积操作会在输入上滑动一个卷积核,并应用一系列的过滤器,以提取不同角度的特征。 在卷积层之后,通过一个批归一化层来对特征进行归一化处理,增强模型的稳定性和收敛性。 接下来,将经过归一化的特征通过一个ReLU激活函数进行非线性变换,以增强模型的非线性建模能力。 接着,将变换后的特征展平,并通过一个全连接层将其映射到预测的得分空间。全连接层可以将不同维度的特征进行组合和权重调整,从而得到最终的预测得分。 最后,通过一个Sigmoid函数将得分转化为概率值,表示该三元组在知识图谱中成立的概率。在训练过程中,模型会通过最大似然估计来优化参数,使得正确三元组的预测得分高于错误三元组的预测得分。 总之,ConvE模型的评分函数通过卷积操作、批归一化、非线性变换和全连接层的组合,将实体和关系的嵌入向量映射到预测得分空间,从而实现对知识图谱中三元组的预测。 ### 回答3: ConvE模型的评分函数是通过对头实体和关系的嵌入向量进行卷积操作来生成尾实体的预测概率。具体而言,评分函数可以分为以下几个步骤: 1. 输入层:将头实体和关系的one-hot编码表示转换为对应的嵌入向量。 2. 卷积层:将头实体和关系的嵌入向量分别重塑为二维矩阵,并将它们进行拼接,形成一个三维张量。然后,通过设置不同的卷积核大小和数量,在三维张量上进行卷积操作,得到一系列的特征图。 3. 扁平化层:将卷积层生成的特征图展平为一维向量。 4. 全连接层:将展平后的特征向量输入到全连接层中,可以通过添加激活函数如ReLU对特征向量进行非线性加工。 5. 输出层:通过一个全连接层将特征向量映射到预测尾实体的概率分布。通常可以通过使用softmax函数来获得概率值。 最终,ConvE模型的评分函数会返回一个表示预测尾实体概率的向量。根据这个向量,我们可以选择有最高概率的尾实体作为预测结果。而模型的损失函数可以使用交叉熵损失函数来衡量预测结果与真实标签之间的差异,并通过反向传播算法来优化模型的参数。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值