少样本低资源知识图谱补全与多视图任务表示生成

1 引言

面向的问题:在低资源且使用非通用语言的的KG中,具有挑战性的长尾关系问题阻碍了KG补全中遗漏三元组的自动发现,且泛化能力低。

1.1本研究目标

减轻长尾问题的影响,并提高少样本KG完备化模型在低资源KG上的泛化能力。

1.2本研究提出的解决方案

基于多视图任务表示生成的少样本学习框架。

    ①该框架由四个部分组成,即少样本学习器、扰动少样本学习器、关系知识蒸馏器和成对对比蒸馏器。其核心思想是利用每个少样本任务的不同观点来改进和规范对少样本学习者的训练。

    ②对于每个少样本任务,不是通过复杂的任务设计来增强它,而是使用关系知识抽取器和扰动少镜头学习器来生成其不同视图的表示,这些表示是通过从KG编码器中提取知识并扰动少样本学习器来获得的。

  ③然后,基于教师-学生模型的成对对比蒸馏器利用生成的不同视图的表示,从不同的视图中提取如何表示关系的知识到少样本学习者中,从而促进少样本学习。

 1.3对比学习相关基础知识

①生成不同的视图

少样本学习中的一种策略,目的是通过创建多样化的输入表示(views)来增强模型的泛化能力和鲁棒性。在知识图谱补全中,不同视图的生成可以通过以下几种方式实现:

  • 图结构视图

    • 基于子图:从知识图谱中提取不同的子图来表示同一实体或关系。
    • 基于邻居节点:不同视图可以包括不同数量的邻居节点或选择不同的邻居节点。
  • 特征视图

    • 使用不同的特征集:从原始数据中提取不同的特征子集。例如,可以基于节点的属性、关系的类型或上下文信息来生成不同的视图。
    • 多模态特征:如果知识图谱包含多模态数据(如文本、图像等),可以基于不同模态生成视图。
  • 数据增强视图

    • 数据增强:对原始数据进行变换,如添加噪声、随机裁剪或旋转等方式,生成多种变换后的视图。
    • 合成数据:通过生成对抗网络(GANs)或其他生成模型生成合成数据来增加样本多样性。

      ②直接生成扰动表征

    • 与常见的对比学习步骤不同,这里描述的方法直接生成扰动表征,而不是先对数据进行扰动再提取表征。这种方法有以下特点和优势:

    • 直接生成扰动表征

      • 而不是对数据本身进行各种增强和变换,这种方法直接在特征空间中生成扰动后的表征。这意味着我们不再需要对数据进行多种形式的扰动,而是直接操作特征表示。
    • 避免了小概率任务扰动

      • 在实际应用中,某些数据扰动可能会导致一些不合理或罕见的变换(小概率事件),这些变换可能对模型训练产生负面影响。通过直接生成扰动表征,可以避免这些小概率任务扰动带来的不利影响,确保生成的表征在特征空间中更加合理和有效。

 ③直接蒸馏方法和成对对比蒸馏器

直接蒸馏方法和成对对比蒸馏器是两种不同的知识蒸馏技术,用于将教师模型中的知识传递给学生模型。以下是它们的对比分析:

直接蒸馏方法

特点

  1. 单教师模型:通常涉及一个教师模型,它的知识通过某种方式传递给学生模型。
  2. 直接传递:教师模型的输出直接用于指导学生模型的训练,学生模型通过模仿教师模型的输出进行学习。
  3. 简单高效:实现相对简单,只需一个教师模型的输出作为目标。

优点

  • 实现简便:只需要一个教师模型和一个学生模型。
  • 高效传递:直接使用教师模型的输出作为指导,传递知识高效。

缺点

  • 单一视角:只依赖一个教师模型,可能无法提供足够的多样性和全面性,尤其在处理复杂任务时。
  • 对教师模型依赖高:如果教师模型本身的表现不佳,学生模型的性能也会受到限制。

成对对比蒸馏器

特点

  1. 双教师模型:涉及两个教师模型,它们分别提供不同的知识视角。
  2. 对比蒸馏:通过比较两个教师模型的输出,将它们的知识整合并传递给学生模型。
  3. 增强多样性:利用不同教师模型的多样性,提高学生模型的泛化能力。

优点

  • 多视角学习:结合两个教师模型的知识,提供更全面和多样化的指导。
  • 鲁棒性强:即使一个教师模型存在不足,另一个教师模型可以提供补充,提高学生模型的性能和稳定性。
  • 避免不完美表示:通过对比蒸馏,可以缓解直接使用不完美表示带来的负面影响,确保学生模型得到更准确的知识传递。

缺点

  • 实现复杂:需要设计两个教师模型和对比蒸馏机制,增加了实现和计算的复杂度。
  • 计算资源要求高:同时训练和对比两个教师模型,可能需要更多的计算资源和时间。

总结对比

  • 实现难度:直接蒸馏方法实现简单,成对对比蒸馏器实现复杂。
  • 知识传递效率:直接蒸馏方法高效但单一,成对对比蒸馏器通过多视角提供更全面的知识传递。
  • 模型性能:成对对比蒸馏器在处理复杂任务和少样本学习任务时,通常能提供更好的泛化能力和稳定性。
  • 计算资源:直接蒸馏方法资源消耗较少,成对对比蒸馏器需要更多计算资源。

       在任务复杂性较高或数据稀少的情况下,成对对比蒸馏器更具优势,可以通过多视角学习提高模型的泛化能力和性能。而在任务较为简单、计算资源有限的情况下,直接蒸馏方法可能更为实用。

       现有的知识蒸馏方法通常要求学生模型完全模仿教师模型的输出,但在本文所讨论的框架中,这种做法不可行。原因在于教师模型不能提供足够精确的知识,因此需要一种新的方法,能够部分利用教师模型的知识进行监督,而不是要求学生模型完全模仿教师模型。

 2  Flow-MV模型

针对预测三元组中的尾实体。

 2.1  少样本学习器

 目的:在一个较小的支持集上学习稀有关系的有效表示。对于(ℎ𝑠, 𝑡𝑠 )之间存在的稀有关系rz,有:

 

 X⊕y表示嵌入x和y的连接。通过一个𝐿层全连接神经网络来实现少样本学习。由于支持集Sz中存在𝐾个实体对,我们对𝐾个关系嵌入进行平均,得到关系表示rT,如下所示:

 

 其中RT𝑧表示任务T𝑧中关系𝑧的元知识。度量真三元组(ℎ𝑠,𝑟𝑧,𝑡𝑠)真实性的算法如下:

 

 损失函数如下:

 对于集合 S_Z 中的所有训练样本,将每个样本的真实标签 y_tr 加上模型预测值 f^s(h^s, r_z, t^s) 减去交叉验证得到的预测值 f^s(h^s, r_z, t_n^s) ,然后取非负部分(即 [.]_+ 表示如果结果小于0则取0)。最后将这些差值求和,得到总的训练损失。R_TZ快速更新步骤(类似于梯度下降):

 在快速更新之后,元知识ˆR_T𝑧然后被利用基于TransE算法的另一计分函数来测量查询集合Q_z中的三元组的似然程度:

 

 然后将用于更新查询集合Q𝑧上的少样本学习器Rm(·)的损失函数定为:

 

 其中t_j是候选尾实体。

  • 支持集的更新:支持集上的更新通常指的是在训练阶段,模型参数基于支持集上的损失进行梯度下降更新,以便学习如何从少量样本中快速提取有用信息。

  • 查询集的更新:查询集上的更新更多地体现在评估阶段,模型在查询集上的表现反映了其泛化能力。在某些情况下,查询集上的更新也可能涉及微调,尤其是当模型需要在每个任务上进行快速适应时。

这种“更新”可以看作是模型在特定任务上的学习和调整过程,旨在让模型能够快速适应新任务并具有良好的泛化性能。在实际操作中,这种更新可能是通过计算损失函数并反向传播梯度来实现的,从而调整模型的参数以最小化损失。

 

 2.2  干扰少样本学习器

 问题:少样本任务的数据增强困难,因为衡量对少样本任务进行的修改对增强的有用性是一个棘手的问题。

       扰动前:RM(·; 𝜃),扰动后:PRM(·; 𝜙),扰动前后架构相同,但是随着权重参数的扰动。扰动是由:

      公式8描述的是对少样本学习器PRM(·;φ)中第l层权重θ_l进行扰动的方法。其中,φ_l是扰动后第l层的权重,等于原权重θ_l加上一个扰动项Δθ_l。而Δθ_l是从高斯分布N(0,σ^2_l)中采样的,用来控制权重扰动的大小。系数δ是用来调整扰动幅度的参数。通过这种方式,我们可以生成一系列不同的模型版本,从而实现对抗性训练,提高模型的鲁棒性和泛化能力。

       在扰动之后,可以使用扰动模型Prm(·;𝜙)来生成用于少镜头任务的不同视图的表示,遵循从公式(1)到公式(4)训练——少数镜头学习器Rm(·;𝜃)的相同过程。具体地,对于具有支持集S𝑧的稀有关系R𝑧,元知识ˆr(2)T𝑧由PrM(·;𝜙)生成,ˆRT𝑧由Rm(·;𝜃)生成。这里,rˆT𝑧指的是用于少镜头任务T𝑧的原始视图的表示,而ˆr(2)T𝑧表示用于少镜头任务T𝑧的不同视图的表示。然后,结合这两种观点,我们对对比损失的定义如下:

 

       其中函数𝑓𝑐(x,y)=x𝑇y/||x|y||衡量两个表示之间的余弦相似度,而𝜏指的是温度参数。对比损失L𝐶是归一化温度标度交叉熵损失,以加强正对ˆRT𝑧和ˆr(2)T𝑧与负对之间的一致性。在对比损失的支持下,少样本模型能够从少样本任务中提取更多有意义的特征,并学习对扰动具有鲁棒性的稀有关系的更有能力的表示。

 2.3  关系知识蒸馏

 目的:进一步引入更多的自我监督信号,以规范对少镜头学习者的优化。

       采用KG编码器学习背景KG中实体和关系的表示,并训练KG编码器以关系为桥梁来刻画实体之间的联系,因此KG编码器可以获得实体对(ℎ,𝑡)和三元组关系(𝑟)之间的隐式映射知识,这些知识可以进一步用作学习给定支持集下稀有关系的元知识的指标。

       具体地说,对于三元组(ℎ𝑖,𝑟𝑖,𝑡𝑖)∈TP∗,P(·))将实体ℎ𝑖和𝑡𝑖的表示作为输入,并生成关系𝑟的表示。从形式上讲关系知识抽取方法,如下:

 

 损失函数如下:

 

 请注意,KG编码器和关系知识提升器是一起训练的。

       对于具有支持集S𝑧的稀有关系R𝑧,元知识ˆr(1)T𝑧由公式10的P(·)生成。这里,ˆr(1)T𝑧表示少镜头任务T𝑧的另一不同视图的表示。

 2.4  成对对比蒸馏器

        PRM(·)和关系知识提升器P(·),我们可以得到少镜头任务的两个不同视图的表示。然后,我们的目标是利用不同观点的表示来提高稀少关系学习者对丢失的三元组的预测的泛化能力。

 问题:由于两个主要原因,不同观点的学习表征不能正确描述关系,不能直接视为对应关系的元知识。①因为关系知识蒸馏器是由一些非稀有关系的三元组间接训练的,并倾向于拟合这些非稀有关系。②其次,扰动少样本学习者虽然可以学习到嵌入空间中接近准确元知识的元知识来表示关系,但由于其权重扰动,仍然存在差距。

 解决方案:一个两两对比的知识蒸馏器,以利用少量任务的不同视图来帮助克服过拟合。

具体地,根据师生框架,我们将关系知识蒸馏器P(·)作为教师模型T1,将扰动小次学习者PRM(·)作为另一个教师模型T2,将小次学习者RM(·)作为学生模型。由于两种教师模型不能提供完全精确的知识来表示关系,而是完全模仿教师模型的行为,因此学生模型RM(·)可以通过仅结合教师模型的部分监督,使用其元任务提取元知识。

 

 公式12定义了一个对比式蒸馏损失函数,用于从教师模型T_1中蒸馏知识到少样本学习器RM。这个损失函数由两部分组成,一部分衡量真实三元组和负例三元组之间的差异,另一部分衡量教师模型和学生模型之间的差异。 总的来说,这些公式描述了一种利用教师模型和扰动技术来改善少样本学习器性能的方法。

 

      学生模型的目标是最大化真三元组(𝑓𝑞(ℎ𝑞,𝑟𝑧,𝑡𝑞)和负三元组𝑓𝑞T1(ℎ𝑞,𝑟𝑧,𝑡𝑗)与T1之间的差异。然后,我们将相同的策略应用于教师模型T2,并获得以下损失函数:

 两         两两对比信息使得学生模型避开了教师模型不完善元知识的直接使用,我们只利用教师模型的元知识作为对比信息来指导学生模型的优化,避免了学生模型的负迁移。最后的对比蒸馏损失函数LKD定义为: 

𝜆1和𝜆2是权衡参数。

 最后的损失函数是:

2.5  最优化与推理

在优化过程中,使用关系知识提升器P(·)对KG编码器进行预训练,以实现从KG编码器中提取知识。采用迭代优化策略对KG编码器和关系知识提升器P(·)进行优化,并重复足够的迭代次数,直到KG编码器和关系知识提升器收敛。然后,利用已学习的实体和关系的表示,对少镜头学习器Rm(·)进行多次迭代优化,以P𝑅𝑀的元训练任务为热身,对其权重进行扰动,并将其传递给扰动的少镜头学习器Rm(·)。在此之后,可以进一步训练学生模型RM(·),以将损失降至最低.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值