ZERO-SHOT LEARNING WITH COMMON SENSE KNOWLEDGE GRAPHS

ZERO-SHOT LEARNING WITH COMMON SENSE KNOWLEDGE GRAPHS

ABSTRACT

零样本学习依赖语义类表示,如手工设计的属性或学习的嵌入,来预测没有任何标记示例的类。常识知识图是未开发的显式高级知识来源,它不需要多少人力就能应用到一系列任务中,我们建议从常识知识图中学习类表示。为了捕获图中的知识,我们引入了一个通用框架ZSL-KG,该框架使用一种新的图卷积网络(TrGCN)来生成类表示。我们提出的TrGCN架构计算节点邻域的非线性组合,并导致零样本学习任务的显著改进。我们的方法在物体分类、意向分类和细粒度实体类型任务中的六个零样本基准数据集上的最新的最先进的准确性。ZSL-KG在每个任务上比专业的最先进的方法平均精度高1.7点,比通用方法的最佳平均精度高5.3点。我们使用替代图神经网络对ZSL-KG进行的消融研究表明,基于TrGCN的聚合器在这些任务上增加了2.8个精度点。

INTRODUCTION

深度神经网络需要大量标记的训练数据来实现最佳性能。这是一个严重的瓶颈,因为获取大量手工标记的数据是一个昂贵的过程。零样本学习是一种训练策略,它允许机器学习模型预测新的类,而不需要任何标记的新类的例子。零射击模型学习可见类及其类表示的参数。在推理过程中,将为看不见的类提供新的类表示。以前的零射击学习系统使用了手工设计的属性、预训练的嵌入和学习的嵌入(例如句子嵌入)作为类表示。

类表示在zero-shot学习框架应该满足以下属性:(1)他们应该适应看不见的类,而无需额外的人力工作,(2)他们应该提供丰富的功能,这样看不见的类有足够的区别特征,(3)他们应该适用于下游一系列的任务,而以前的类表示方法有各种限制。在频谱方法领域,基于属性的方法提供了丰富的特性,但是必须为看不见的类提前补充属性。在非频谱方法领域,预训练嵌入如GloVe和Word2Vec提供的灵活性很容易适应新的类别但依赖于大型语料库的无监督训练,而这可能不会提供零样本学习所必需的显著特征。许多方法都在这个范围内,从属性、文本和图像原型等描述中学习零射击任务的类表示。现有的方法已经取得了最先进的性能,虽然进行了特定任务的调整,但是仍然不能完全适应不同领域的任务。在ImageNet图上使用图神经网络学习类表示的方法在零样本类别分类上取得了强大的性能。这些方法是通用的,因为我们证明了它们也可以适用于其他任务。然而,ImageNet graph可能不能提供适合广泛下游任务的丰富特性。

在我们的工作中,我们建议从常识知识图学习类表示。常识知识图是一个未开发的显性高级知识来源,它不需要人力投入就能应用于一系列任务。这些图在相关的概念节点之间有明确的边,并提供有价值的信息来区分不同的概念。然而,调整现有的零样本学习框架来从常识知识图中学习类表示在许多方面都具有挑战性。GCNZ使用对称归一化图拉普拉斯算子学习图神经网络,在训练过程中不仅需要完整的图结构,而且当图结构发生变化时还需要重新训练,即GCNZ不是归纳的。
常识知识图可能很大(200万到2100万条边),在整个图上训练一个图神经网络的代价可能非常昂贵。DGP是一种归纳方法,旨在生成表达类表示,但假定有向无环图,如WordNet。常识知识图没有有向无环图结构。

为了解决这些限制,我们提出了ZSL-KG,这是一个通用框架,使用了一个新的图卷积网络(TrGCN)转换器来学习类表示。图神经网络通过从每个节点的邻域聚合信息来学习表示图的结构。在GCNZ、DGP和大多数其他图神经网络方法中使用的聚合技术是线性的,从某种意义上说,它们取邻域特征的一个(可能是加权的)平均值或最大值。为了捕获常识知识图中的复杂信息,TrGCN学习了一个基于转换器的聚合器来计算节点邻居的**非线性组合。**先前的一些著作认为,基于LSTM的聚合器可以提高图神经网络的表达能力,但它们的输出对每个邻域节点的排序很敏感。例如,在awa2的数据集,我们发现,我们发现,我们发现当给相同的测试图像10次且邻域顺序不同时,基于LSTM的图神经网络在16%的时间内输出不一致的预测(附录A)。最近的一项工作考虑通过在所有排列方式中取平均输出来尝试降低LSTM的灵敏度,但这会显着增加计算成本,并且只会对预测精度产生很小的提升。相反,TrGCN学习基于转换器的聚合器,它是非线性的和自然排列不变的。
另外,我们的框架是归纳的,即图神经网络可以在与训练图不同的图上执行,这是在训练过程中测试类未知的归纳式零样本学习中所必需的。

我们展示了我们的框架在视觉和语义上的三个零样本学习任务上的有效性:类别分类,意向分类和细粒度的实体类型。 我们在六个零样本基准数据集上报告了最新的准确性。对于每个任务,ZSL-KG的性能均优于最新的专用方法,平均精度高1.7个百分点。 ZSL-KG的性能也比一般的最佳通用方法GCNZ高出5.3个精度点。 我们对ZSL-KG的交替图神经网络消融研究表明,基于转换器的聚合器在这些任务上的精度提高了2.8个点。

总结贡献:

  1. 我们建议从常识知识图中学习类表示,用于零样本学习。
  2. 我们介绍ZSL-KG,这是一个基于图神经网络的新型通用框架,具有新颖的基于转换器的体系结构。 我们提出的体系结构学习节点邻域的非线性组合,并生成表达性的类表示形式。
  3. ZSL-KG在awa2,aPY,ImageNet,SNIPS-NLU,Ontonotes和BBN数据集上均取得了最优的结果。

BACKGROUND

  1. 零样本学习

    零样本学习有多种变体, 我们的工作侧重于归纳式零样本学习,在这种情况下,我们无法在训练期间将不可见类考虑进去。 我们通过对可见类进行优化来训练零样本分类器。 但是,与传统方法不同,零样本分类器与类表示(例如属性,预训练的嵌入等)一起训练。

    最近的方法学习类编码器 φ ( y ) ∈ R d φ(y)∈R^d φ(y)Rd,以生成类表示,例如字符串或类的其他标识符。在我们的例子中,y是图形中的一个节点及其k阶邻域。在推理期间,通过使示例通过示例编码器 θ ( x ) ∈ R d θ(x)∈R^d θ(x)Rd并预测其表示与示例表示的内积最高的类,可使用该类表示来标记带有看不见的类的示例。

    零样本学习的最新工作通常使用两种方法之一来学习类编码器 φ ( y ) ∈ R d φ(y)∈R^d φ(y)Rd。 一种方法使用由相容性矩阵 W ∈ R d × d W∈R^{d×d} WRd×d定义的双线性相似函数:
    f ( θ ( x ) , W , ϕ ( y ) ) = θ ( x ) T W ϕ ( y ) f\left ( \theta\left ( x \right ),W,\phi (y) \right ) = \theta \left ( x \right )^TW\phi \left ( y \right ) f(θ(x),W,ϕ(y))=θ(x)TWϕ(y)

    双线性相似度函数为每个示例类对提供分数。 通过对所有可能的可见类别 y ∈ Y S y∈Y_S yYS取f之上的softmax并将相对于真实标签的交叉熵损失或秩损失最小化,来学习θ,W和φ的参数。 换句话说,对于正确的类别,f应该给出较高的分数,对于不正确的类别,f应该给出较低的分数。 W通常被约束为低等级,以减少可学习参数的数量。 最后,相似度函数的其他变体增加了较小的变体,例如W因子之间的非线性。

    另一种常见方法是首先以监督方式训练神经网络分类器。 该网络的全连接层具有每个可见类的矢量表示,其余层用作示例编码器 θ ( x ) θ(x) θ(x)。 然后,通过最小化监督学习和 φ ( y ) φ(y) φ(y)的表示之间的L2损耗来训练类编码器 φ ( y ) ∈ R d φ(y)∈R^d φ(y)Rd

    我们在第3节中提出的类编码器可以插入到这两种方法中.

  2. 图卷积网络

    图神经网络背后的基本思想是学习反映图结构的节点嵌入。 考虑图 G = ( V , E , R ) G =(V,E,R) G=(VER),其中 V V V是具有节点特征 X v X_v Xv的一组顶点,而 ( v i , r , v j ) ∈ E (v_i,r,v_j)∈E (virvj)E是标记的边,r∈R是关系类型。 图神经网络通过k阶邻域的迭代聚合来学习节点嵌入。
    图神经网络的每一层都有两个主要组件AGGREGATE和COMBINE:
    a v ( l ) = A G G R E G A T E ( l ) ( { h u ( l − 1 ) ∀ u ∈ N ( v ) } ) a_{v}^{(l)} = AGGREGATE^{(l)}\left ( \left \{ h_u^{(l-1)}\forall u\in N(v) \right \} \right ) av(l)=AGGREGATE(l)({hu(l1)uN(v)})
    其中 a v ( l ) ∈ R d l − 1 a_{v}^{(l)} \in R^{d_{l-1}} av(l)Rdl1是邻居节点特征的聚合, h u ( l − 1 ) h_u^{(l-1)} hu(l1)是节点v包括一阶在内的邻居的节点特征.聚合的节点通过COMBINE来生成第l层的节点表示 h v ( l ) ∈ R d l h_v^{(l)} \in R^{d_l} hv(l)Rdl:
    h v ( l ) = C O M B I N R ( l ) ( h v ( l − 1 ) , a v ( l ) ) h_v^{(l)} = COMBINR^{(l)}\left ( h_v^{(l-1)},a_v^{(l)} \right ) hv(l)=COMBINR(l)(hv(l1),av(l))
    其中, h v ( 0 ) = x v h_v^{(0)}=x_v hv(0)=xv, x v x_v xv是节点的初始化特征向量,先前的工作已经使用GloVe来表示初始化特征。

THE ZSL-KG FRAMEWORK

在这里,我们介绍ZSL-KG:一种具有新颖的“转换器图卷积网络”的通用框架,用于从常见的知识图中学习类表示。 图1显示了带有示例大象概念的ZSL-KG体系结构。

在这里插入图片描述

左:来自ConceptNet的大象的2阶邻居的样本。 右:该图描述了ZSL-KG的体系结构。 大象的图像通过示例编码器(ResNet101)生成图像的示例表示。 对于类表示,我们使用k-hop邻域采样,并将节点通过其特定于跃点的Transformer 图卷积网络传递。 我们使用示例表示形式和类表示形式的点积来计算类的分数。 对于语言任务,使用特定于任务的示例编码器遵循相同的体系结构。

  1. 零样本常识图谱

    常识知识图中隐含给人类的高级知识, 图中的节点是通过边彼此关联的概念, 图中的这些关联提供了丰富的信息源,这使它们适用于各种任务。 公开可用的常识知识图范围大约为100,000至800万个节点和200万至2,100万个边。 为了从常识知识图中学习类的表示形式,我们希望使用神经网络。

    现有的零样本学习方法,例如GCNZ和DGP,它们从结构化知识中学习类表示形式,仅适用于小图,例如ImageNet或Wordnet,因为它们具有限制性假设 。 GCNZ在训练过程中需要整个图结构,并从ImageNet图中学习类表示,该ImageNet图比常识知识图小得多。 例如,GCNZ中使用的ImageNet图具有约32,000个节点和65,000个边。 DGP学习了更具表现力的类表示形式,但需要有向无环图或图中的父子关系。 在常识知识图中,我们不仅限于父子关系。

  2. 转换器卷积网络

    为了克服这些限制,我们建议使用一种新型的图神经网络:转换器图卷积网络(TrGCN)学习类表示。 转换器是非线性模块,通常用于机器翻译和语言建模任务。 他们使用两层前馈神经网络和按比例缩放的点积注意力实现了输入序列的非线性组合。 我们利用此属性来学习一个非线性聚合器,该聚合器捕获了常识知识图的复杂结构。 最后,它们不依赖于图结构,这使其非常适合归纳式零样本学习。

    我们描述一下TrGCN。我们经过一个两层的带有ReLU激活函数的两层前馈神经网络来传播邻居节点特征 h u ( l − 1 ) h_u^{(l-1)} hu(l1).通过跳步连接将先前的特征添加到其输出特征中,然后进行图层归一化
    h u ′ ( l − 1 ) = L a y e r N o r m { W f h ( l ) [ R e L U ( W h f ( l ) h u l − 1 ) ] + h u ( l − 1 ) ∀ u ∈ N ( v ) } h_u^{'(l-1)} = LayerNorm\left \{ W_{fh}^{(l)}\left [ ReLU\left ( W_{hf}^{(l)}h_u^{l-1} \right ) \right ] +h_u^{(l-1)}\forall u \in N(v) \right \} hu(l1)=LayerNorm{Wfh(l)[ReLU(Whf(l)hul1)]+hu(l1)uN(v)}
    其中 W h f ( l ) ∈ R d l − 1 × d ( f ) W_{hf}^{(l)} \in R^{d_{l-1} \times d_{(f)}} Whf(l)Rdl1×d(f) W f h ( l ) ∈ R d ( f ) × d ( l − 1 ) W_{fh}^{(l)} \in R^{d_{(f)} \times d_{(l-1)}} Wfh(l)Rd(f)×d(l1)是前馈神经网络可学习的参数。然后,将非线性邻域特征传递到缩放的点乘积注意层,以计算每个查询节点的要素的加权组合:
    { z u ( l ) ∀ u ∈ N ( v ) } = s o f t m a x ( Q K T d ( p ) ) V \left \{ z_u^{(l)}\forall u \in N(v) \right \}=softmax \left ( \frac{QK^T}{\sqrt{d_{(p)}}} \right )V {zu(l)uN(v)}=softmax(d(p) QKT)V
    其中 Q = W q ( l ) h u ′ ( l − 1 ) Q=W_q^{(l)}h_u^{'(l-1)} Q=Wq(l)hu(l1)是所有邻居查询向量的集合, K = W k ( l ) h u ′ ( l − 1 ) K=W_k^{(l)}h_u^{'(l-1)} K=Wk(l)hu(l1)是所有关键向量的集合。 V = W v ( l ) h ˙ u ′ ( l − 1 ) V=W_v^{(l)} \dot h_u^{'(l-1)} V=Wv(l)h˙u(l1)是值向量集合, W q ∈ R d ( l − 1 ) × d ( p ) W_q \in R^{d_{(l-1) \times d_{(p)}}} WqRd(l1)×d(p), W k ∈ R d ( l − 1 ) × d ( p ) W_k \in R^{d_{(l-1) \times d_{(p)}}} WkRd(l1)×d(p), W v ∈ R d ( l − 1 ) × d ( p ) W_v \in R^{d_{(l-1) \times d_{(p)}}} WvRd(l1)×d(p)是具有投影尺寸 d ( p ) d_{(p)} d(p)的可学习的权重矩阵.注意层的输出特征将与另一个线性层一起投影,并通过跳步连接添加到其先前的特征中,然后进行图层归一化:
    { z u ′ ( l ) ∀ u ∈ N ( v ) } = L a y e r N o r m ( W z ( l ) z u ( l − 1 ) + h u ′ ( l − 1 ) ∀ u ∈ N ( v ) ) \left \{ z_u^{'(l)} \forall u \in N(v)\right \} =LayerNorm\left ( W_z^{(l)}z_u^{(l-1)} + h_u^{'(l-1)} \forall u \in N(v) \right ) {zu(l)uN(v)}=LayerNorm(Wz(l)zu(l1)+hu(l1)uN(v))
    其中, W z ( l ) ∈ R d ( p ) × d ( l − 1 ) W_z^{(l)} \in R_{d_{(p)} \times d_{(l-1)}} Wz(l)Rd(p)×d(l1)是可学习的权重矩阵。

    为了得到节点v的聚合向量a,我们通过置换不变池化函数 μ ( ⋅ ) \mu (\cdot) μ(),如mean-pooling,将变压器的输出向量 z u ′ ( l ) ∀ u ∈ N ( v ) z_u^{'(l)}\forall u \in N(v) zu(l)uN(v)传递给它。聚合向量通过一个线性层,然后是一个非线性的o(.),如ReLU或LeakyReLU:
    a v ( l ) = μ ( { z u ′ ( l ) ∀ u ∈ N ( v ) } ) h v ( l ) = σ ( W ( l ) ⋅ a v ( l ) ) a_v^{(l)} = \mu \left ( \left \{ z_u^{'(l)} \forall u \in N(v) \right \} \right ) h_v^{(l)} = \sigma \left ( W^{(l)}\cdot a_v^{(l)} \right ) av(l)=μ({zu(l)uN(v)})hv(l)=σ(W(l)av(l))
    其中, W ( l ) ∈ R d ( l − 1 ) × d ( l ) W^{(l)} \in R^{d_{(l-1)}\times d_{(l)}} W(l)Rd(l1)×d(l)是一个可学习的权重矩阵。

    现有工作已经在转换器和图形注意网络(GAT)之间建立了相似之处,表明它们是等效的。通过采用邻域中节点特征的线性组合来计算聚合向量。 相比之下,TrGCN学习基于变压器的聚合器,并计算邻域中节点特征的非线性组合,然后通过合并函数来获得聚合矢量,从而导致体系结构上的差异。

    邻域采样。 在我们的实验中,我们使用ConceptNet(Speer等人,2017)作为常识知识图,但我们的方法适用于其他知识图。 ConceptNet具有较高的节点度,这给训练图神经网络带来了挑战。 为了解决这个问题,我们探索了许多邻域采样策略。 现有的关于采样邻域的工作包括随机采样(Hamilton等,2017a),重要性采样(Chen等,2018a),随机游走(Ying等,2018)等。与PinSage(Ying等, 2018),我们为图中的节点模拟随机游走并将命中概率分配给邻域节点。 在训练和测试图神经网络的过程中,我们根据其命中概率从邻域中选择前N个节点。

TASKS AND RESULTS

我们在三个零样本学习任务上评估我们的框架:对象分类,意图分类和细粒度的实体类型。 在我们所有的实验中,我们将ZSL-KG与用于任务的最新专业方法以及通用方法(GCNZ,SGCN和DGP)进行了比较。 代码和超参数包含在补充材料中,将在接受后发布。

Setup。我们将两层图神经网络用于通用基准和ZSL-KG。 我们使用Kampffmeyer等人的代码和GCNZ,SGCN和DGP的零样本学习任务(请参阅附录C.1)。 在我们使用ZSL-KG进行的所有实验中,我们将每个类映射到ConceptNet 5.7中的一个节点,并查询其2阶邻居。 我们在ConceptNet图中为每个节点模拟随机游动,并计算邻域中节点的命中率。 然后,我们分别为第一阶和第二阶采样了具有最高命中概率的50个和100个节点邻居。 有关更多详细信息,请参见附录C.2。

  1. 对象分类,对象分类是将对象分类为不同类别的计算机视觉任务。

    数据集:AWA2,aPY,ImageNet。AWA2包括40个训练类和10个测试类。aPY包括20个训练类和12个测试类。ImageNet包括1000个训练类和21K个测试类。

    实验。遵循先前的工作,这里我们使用L2损失进行零样本学习。示例编码器和可见类表示来自Torchvision中的ResNet 101模型,该模型在ILSVRC 2012上进行了预训练。我们将ILSVRC 2012培训和验证类以及AWA2和aPY测试类映射到ConceptNet。该模型针对950个随机类训练了1000个epoch,其余50个ILSVRC 2012类被用于验证。我们使用作者的实现对GCNZ,SGCN和DGP使用相同的设置。验证类别上损失最少的模型用于对测试类别进行预测。对于ImageNet实验,我们使用常识知识图训练了ILSVRC 2012中1000个类的3000个epoch的模型,并在测试期间切换到ImageNet图。与DGP相似,我们使用生成的类表示冻结最后一层,并使用学习率0.0001和动量0.9的SGD对ILSVRC图像上的ResNet-Backbone进行15个epoch的微调。经过先前的工作,我们报告了针对AWA2和aPY的未见分类的类平衡准确性。我们遵循的训练/测试划分,并在两个难度级别上评估ZSL-KG:2阶和3阶。跃点是指类与ILSVRC训练类之间的距离。我们在两个设置上评估ZSL-KG:零样本学习(ZSL)(其中仅存在未见的类)和广义零样本学习(GZSL)(其中包含可见和不可见的类)。在先前关于ImageNet评估的工作之后,我们报告了类平衡的top-K准确性。

    我们将ZSL-KG与AWA2和aPY的最新专业方法进行了比较:SP-AEN,LisGAN和ZSML。 ZSML是基于GAN的方法,在AWA2和aPY上报告的结果最高,而DGP和SGCN在ImageNet上报告的结果最高。

    结果。表1列出了零样本对象分类的结果。 ZSL-KG优于AWA2和aPY数据集上现有的最新方法。通用方法显示出从AWA2到aPY的准确性显着下降,而我们的方法始终在两个数据集上均实现了最高的准确性。 这表明从更丰富的图形生成的类表示形式有助于提高性能。 与专门的方法相比,ZSL-KG仅训练一个模型,不需要任何专门的训练数据集就可以在两个数据集上达到最新的性能。 最后,我们在ImageNet上进行的实验表明,尽管ZSL-KG受到了嘈杂图的训练,但仍报告了零样本学习和广义零样本学习的最新技术。 与最先进的方法相比,ZSL-KG的精度提高了2.3点,相对改进了20%。
    在这里插入图片描述

  2. 意图分类

    为了评估ZSL-KG的多功能性,我们尝试了零样本意图分类。 意图分类是一种文本分类任务,用于识别聊天机器人和个人语音助手中表达的用户意图。

    数据集。SNIPS-NLU,使用众包收集数据集以对语音助手的性能进行基准测试。 训练集有5个看到的class,我们分为3个训练类和2个测试类。

    实验。零样本意图分类是一个多类分类任务。 我们实验中使用的示例编码器是biLSTM(请注意附录F)。 我们通过最小化交叉熵损失训练了10个epoch的模型,并在测试集上选择了损失最小的模型。 我们在测试类上衡量准确性。

    我们将ZSL-KG与文献中现有的专门的最新技术进行零样本意图分类进行比较:零样本DNN,IntentCapsNet和ResCapsNet- ZS。 IntentCapsNet和ResCapsNet-ZS是基于CapsuleNet的方法,并且报告了该任务的最佳性能。

    结果。表2显示了结果。 ZSL-KG明显优于现有方法,并将最新精度提高到88.98%。 通用方法在意图分类上表现参差不齐,这表明ZSL-KG在更广泛的任务上都能很好地工作。

  3. 细粒度的实体分类

为了测试ZSL-KG对细粒度类型进行分类的能力,我们尝试了零样本细粒度实体分类。 细粒度实体类型化是将命名实体分类为一种或多种范围狭窄的语义类型的任务。 当看到的类出现在测试集中时,此任务还将测试广义零击学习。

数据集。我们评估了流行的细粒度实体类型数据集:OntoNotes和BBN。我们将数据集分为两个:粗粒度标签和细粒度标签。 遵循先前的工作,我们对粗粒度标签进行训练,并在测试集中预测粗粒度和细粒度标签。 有关数据集的详细信息,请参见附录B。

实验。细粒度的实体键入是一项零样本的多标签分类任务,因为每个实体可以与一个以上的类型相关联。 我们重建了OTyper和DZET,这是该任务的最新专业方法。 两种方法都使用AttentiveNER biLSTM作为示例编码器。 有关更多详细信息,请参见附录G。我们通过最小化交叉熵损失来训练每个模型5个epoch。 在推论过程中,我们将双线性相似性模型中的得分通过S形传递,并选择概率为0.5或更大的标签作为我们的预测。 正如此任务的常见操作,我们在严格的精度,宽松的F1和宽松的F1上评估了模型的性能(附录H)。 严格的准确性会对模型进行错误的标签预测,从而使模型受到惩罚,并且标签预测的数量必须与基本事实相匹配,而宽松的Micro F1和宽松的宏F1则用于评估是否会在其他假阳性预测中预测出正确的标签。

结果。表4示出了结果。 ZSL-KG在对OntoNotes和BBN的严格准确性上均优于现有的最新专业方法。 与ZSL-KG相比,DZET在两个数据集上的松散度更高,因为它过度预测标签并且具有更大的误报率。 ZSL-KG具有较高的标签预测准确度,因此与其他方法相比,具有更高的严格准确度。 这些结果表明,即使在测试集具有多个可见和不可见标签的广义多标签设置中,我们的方法也能很好地工作。

在这里插入图片描述

  1. 图聚合器的比较

    我们在框架下与不同的聚合器进行了消融研究。 现有的图神经网络包括GCN,GAT(Veliˇckovic等,2018),RGCN和LSTM。 我们在附录I中提供了所有体系结构的详细信息。我们以相同的实验设置来训练这些模型,以用于其各自部分中提到的任务。

    结果。表5显示了我们的消融研究结果。 我们的结果表明,ZSL-KG几乎总是优于具有线性聚合器的现有图神经网络。 使用基于LSTM的聚合器的ZSL-KG-LSTM在不同任务之间表现出不一致的性能,这表明它们在诸如节点分类之类的低维任务上更有用。 使用关系聚合器(ZSL-KG-RGCN),我们观察到它们不会胜过ZSL-KG,并且可能会降低整体性能(如AWA2和aPY所示)。 最后,值得对SGCN和ZSL-KG-GCN进行比较,因为它们使用相同的线性聚合器来学习类表示但在不同的图上进行训练。 我们看到在常识知识图上训练的ZSL-KG-GCN在各项任务中平均提高了8.1精度点,这表明图的选择对于下游性能至关重要。

RELATED WORK

我们广泛地描述了零距离学习和图神经网络的相关工作。

零样本学习。零样本学习已在计算机视觉社区中进行了深入的研究以用于对象分类。零样本学习的最新工作已使用图神经网络进行对象分类。在我们的工作中,我们将其方法扩展到常识知识图以生成类表示。此外,我们学习了TrGCN,这是一种具有非线性聚合器的新型图神经网络,用于学习常识知识图的结构。零样本物体分类的最新工作已将注意力集中在图像区域上,以在任务上取得强劲成果 。相比之下,我们的工作重点放在类编码器(TrGCN)上,在该类中,我们可以学习有关图形的注意,并且可以潜在地补充关注图像编码器的方法。最近关于零样本学习的工作集中在对图像区域的注意力上,但它们专注于编码器,特别是它们将注意力集中在图像区域上。其他值得注意的作品使用生成方法进行广义零样本学习,其中在测试时评估可见和不可见类。但是,这些方法仍然依靠手工制作的属性进行分类。零样本学习也已经在文本分类中进行了研究。以前,ConceptNet已被用于转导零样本文本分类,作为类表示的浅层特征。他们使用ConceptNet生成一个稀疏向量,该向量与预训练的嵌入和自然语言描述相结合以获得类表示。另一方面,我们使用ConceptNet从图神经网络生成密集的矢量表示形式,并将它们用作我们的类表示形式。最后,以前已经研究了具有多种类表示形式的零散细粒度实体类型。我们注意到ZOE是一种用于零样本细粒度实体键入的特殊方法,可以在任务上获得最佳结果。但是,他们使用包含可见和不可见类型的测试集的子集来调整阈值参数,从而揭示有关不可见类型的信息,并使ZOE成为一种转导性的零样本学习方法。

图神经网络。图神经网络的最新工作已显示出对一些下游任务(例如节点分类和图分类)的重大改进。将图神经网络扩展为关系图已经在几个图相关任务中产生了重要成果。先前的工作使用具有图神经网络的变换器作为在图中生成元路径的方法,而不是作为邻域聚集技术。张等人的相关工作将常识知识图和图神经网络相结合,实现了零样本学习。 ZSL-KG无需任何其他人工输入即可学习将知识图中的节点映射为类表示形式。相反,张等人学习将手工设计的属性转移到图中的新节点。另一方面,我们的工作是在常识知识图上学习图神经网络,以生成丰富的类表示。最后,探索了使用图神经网络的几种不同应用:常识推理,细粒度实体类型输入,文本分类,强化学习和神经机器翻译。

结论

ZSL-KG是具有常识知识图的零样本学习的灵活框架,可以适应多种任务,而无需额外的人工。 我们的框架引入了一种新颖的变压器图卷积网络(TrGCN),该网络捕获了图中的复杂关联以学习类表示。 我们在三个零样本任务中的五个基准数据集上实现了最先进的性能。 我们的工作表明,常识知识图是高级知识的强大来源,并且可以使一系列任务受益。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值