Few-shot Relation Extraction via Bayesian Meta-learning on Relation Graphs

最新推荐文章于 2023-02-08 09:20:05 发布

aaaaa98666

最新推荐文章于 2023-02-08 09:20:05 发布

阅读量1.2k

点赞数 3

分类专栏：博客书写文章标签：自然语言处理深度学习

本文链接：https://blog.csdn.net/Wywxring98/article/details/109331282

版权

博客书写专栏收录该内容

1 篇文章 0 订阅

订阅专栏

【论文阅读-ICML2020】Few-shot Relation Extraction via Bayesian Meta-learning on Relation Graphs

新知识点

Few-shot

小样本学习问题：学会区分图片之间是相同的还是不同的。

support set 带标签的图片
query 查询类别，无标签
training set 训练集
K-way N-shot:K个类别每个类别N个sample
（way越小，shot越大，分类准确率越大）

用support set去学习一个相似度函数；在使用相似度函数对query进行预测类别。

优势：少标签缺点：overfitting
改进方法：1）数据增强：同一个变出好多个（旋转等） 2）正则化：训练时加入正则项

Siamese network

https://blog.csdn.net/qq_36321330/article/details/107917962

Bayesian

什么是bayesian

新的贝叶斯元学习方法，通过学习基于标记句子的关系原型向量(即支持集)和全局关系图实现小样本关系抽取。
本文中采用Bayesian meta- learning (Gordon et al., 2019; Kim et al., 2018) and parameterize the prior distribution of prototype vectors of relations by applying a graph neural network (Kipf &Welling, 2017) to the global graph。

Meta-learning

learn-to-learn

元学习的思想：用大量不同的任务来训练模型，每个任务都有几个例子来演示，这样学习的模型就可以快速推广到只有几个例子的新任务。

Few-shot learning（少样本学习）和 Meta-learning（元学习）概述

但该方法训练数据的信息量仍然有限，其性能仍然不尽人意–>全局关系图改进

全局关系图

为了更有效地推广到新的关系和任务，作者提出了利用全局图的方法建模不同的关系。

全局关系图提供了不同关系之间关系的先验知识，允许我们在关系之间转移监督以及在没有扩充带标签的句子的情况下推广这些关系。

在实践中，这种全局图可以通过不同的方式获得。例如，我们可以使用知识图嵌入算法（Bordes et al.，2013；Sun et al.，2019）来推断关系嵌入，然后基于关系嵌入构造K-最近邻图。全局关系图提供了不同关系之间关系的先验知识，使我们可以在这些关系之间转移监督，甚至可以在不使用任何标记语句的情况下推广到这些关系

Langevin动力学

文章后的补充“A. Justification of the Initialization in the Langevin Dynamics In“

Monte Carlo sampling

MIML

元学习笔记–MIML

随机梯度（stochastic gradient）下降

在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。

梯度是函数变化最快的方向。三元函数梯度
梯度的正负代表上升或下降
梯度的大小代表重要程度。

梯度下降法实质上是将代价函数的值最小。代价函数必须是平滑的。，这样我们才能每次挪一点点最后找到一个局部最小值（正因如此，人工神经元的激活值是连续的）。根据负梯度的倍数，不断调整函数输入值的过程叫做梯度下降法（gradient descent）。

代价函数
Input：weights、biases
Output:1 number (cost)
Parameters:many traning examples

BERT encoders

bert

(Devlin et al., 2019)

Abstract

本论文采用远监督few-shot关系抽取。用全局关系图更有效地从不同关系中学习新关系。采用bayesian元学习从关系的原型向量中学习后验分布，并利用图神经网络参数化初始先验分布。此外，为了有效地优化原型向量的后验分布，我们建议使用与MAML算法有关但能够处理原型向量不确定性的随机梯度Langevin动力学。

Introduction

1、元学习
2、全局关系图
3、贝叶斯元学习（不采用MAML(Finn et al., 2017)、原型网络(Snell et al., 2017)，而用贝叶斯和图神经网络）
4、原型向量的后验分布，不用高斯(Gordon et al., 2019; Ravi & Beatson, 2019) ，用stochastic gradient Langevin dynamics tech- nique (Welling & Teh, 2011)。我们的方法可以看作是MAML的随机版本（Finn等人，2017），在梯度下降的每一步都添加随机噪声，以模拟原型向量的不确定性。

Relation Work

Few-shot Learning and Meta-learning

few-shot的相关工作
目标是训练具有不同任务的深度学习模型，其中每个任务都由几个示例指定，以便模型能够快速适应新任务。

method1：基于度量（少样本中得到每一类的先验向量，用这个向量进行预测新关系）
method2：基于优化（将问题形式化为一个双层优化问题。外循环学习跨不同任务共享的全局参数，例如模型参数的初始化。内环根据几个例子，通过执行几个梯度下降步骤，使共享参数适应每个任务。）

本文的方法：

与这些以学习原型向量或模型参数的点估计为目的的方法相比，我们的方法将它们视为随机变量并对其后验分布进行建模，从而可以处理这些原型向量或参数的不确定性。
然而，现有贝叶斯元学习方法（使用后验分布推导原型向量或模型参数）忽略了不同类之间的关系，我们通过将图神经网络应用于类的全局图来建模它们之间的关系，从而使我们的方法能够更好地推广到所有不同的类。
此外，我们以一种更有效的方法来模拟后验分布。戈尔登等人。（2019）和Ravi&Beatson（2019），他们使用由摊销网络参数化的简单高斯分布来近似真实的后验分布。然而，真实的后验分布可能比高斯分布更复杂，因此这些方法的精度较低。Kim等人的另一种方法。（2018）使用Stein变分梯度下降法（SVGD）（Liu&Wang，2016）从后验分布中提取样本进行优化，但SVGD依赖于针对不同样本设计的核函数，这很难选择。相比之下，我们的方法使用随机梯度Langevin动力学（Welling&Teh，2011）对每一形式的monte carlo抽样进行优化，这是更灵活和有效的。

Relation EXtraction

我们将关系的全局图视为先验知识，并提出了一种利用全局图的贝叶斯元学习方法，该方法能够更好地在不同的关系之间进行推广。

Problem Definition

在本文中，作者提出用关系的全局图来研究小样本关系提取，其中描述所有可能关系的关联的全局图被认为是一个额外的数据源。更正式地，我们将全局关系图表示为G = (R;L)，其中R是所有可能关系的集合，L是不同关系之间的联系的集合。关联关系可能具有更相似的语义。每个类别有支撑的标注样本集记做S={Xs}，对应的用于测试的样本集为查询集记做Q={Xq}。

Model

模型框架图 模型总体概述
1、原型向量 ：来表示每个关系，这个原型向量可以用来对查询语句进行分类
2、后验分布 ：自然地由两个项组成，即从全局关系图中获得的原型向量的先验和支持句上的似然函数
3、图神经网络 ：应用到全局关系图中来参数化先验分布
4、端到端的优化（由于原型向量的后验分布具有复杂的形式）：
（1）monte carlo抽样来近似后验分布
（2）随机梯度Langevin动力学来提取多个原型向量样本

具体
目标：目标函数
用支持集合全局关系图中的有标签句子来表示原型向量，所以上式表示为：
第一部分是测试句子原始概率表示第二部分是后验分布原始表示
第一部分：是查询集句子标签的分布，用softmax方法。查询集句子用softmax表示

通过计算余弦相似度的归一化得到。（每个V均进行了模长归一化，ε表示除以模长操作）。

因此，模型关键变成第二部分，参数化支持句子和全局关系图上的后验分布。
第二部分：
后验分布可以表示为：
（1）（1））
（2）
先解决（2）
引入图神经网络：

(Kipf &Welling, 2017; Gilmer et al., 2017; Veliˇckovi´c et al., 2018;
Qu et al., 2019)

hr是通过图卷积对关系图编码得到的
N()是高斯分布；NB（r）是全局图中r的邻居，并且M是一个变换函数，整合之前的表示和邻居的M变换。投入到更新矩阵u中。经过几轮这样的更新，全局图中编码的不同关系之间的关系可以有效地保留到最终的关系嵌入中，作为原型向量的正则化。

我们独立地对每个关系r∈T的先验分布进行建模。对于每个关系，我们将其先验定义为一个高斯分布，其中平均值被设置为图神经网络F给出的潜在表示hr。
这样，关系图中的知识可以有效地提取到先验分布中，从而使我们的方法能够更好地推广到广泛的关系中
在参数化原型向量的后验分布时，除了基于图的先验知识外，我们还考虑了支持句的相似性。与式（3）中查询语句的可能性类似，支持句的可能性可以描述为：
其中E是句子编码器。将支持集上的似然性应用于原型向量的先验分布，可以有效地使先验分布适应于支持句较少的目标关系。这样，后验分布结合了全局关系图和支持句的知识，可以有效地对查询语句进行分类

Optimization and Prediction

Monte Carlo sampling

因为对数概率依赖于原型向量上的积分，所以我们使用蒙特卡罗抽样Monte Carlo sampling,估计对数概率，其中从后验分布中提取几个原型向量样本进行近似。

stochastic gradient Langevin dynamics

后验分布包括基于图的先验和支持句的似然函数。基于图的先验是一个高斯分布，而似然函数由一个softmax函数指定。后验分布具有非常复杂的形式，从后验取样是非常重要的。解决这个问题，使用了stochastic gradient Langevin dynamics，通过多梯度随机更新采样。
形式上，目的是从原型向量提取向量（^）VT,可以随机初始化，然后迭代更新：随机梯度
ˆz ∼ N(0, I) is a sample from the standard Gaus- sian distribution.
在磨合期，梯度和MIML高度相关。

和MAML
相似点，都让样本最大化接近知识句的可能性
不同点，（1）本论文的方法，在支持句中还利用了基于图的先验r p(ˆvT|G) 来指导这个过程。
（2）在每一步中加入一个随机噪声Z,可以从后验分布中获得不同的样本，而不是最大后验分布的单个向量。换句话说，我们的额方法可以模拟原型向量的不确定性。

缺点，Langevin dynamics需要一个磨合期，需要很长的时间。
改进：让样本停留在后验分布的高密度区域是有帮助的，可以更好地在这些区域周围进行探索。在具有较高后验概率的点上初始化样本ˆvT。（我们在附录中从理论上证明了适当的初始化）

其中hr是图神经网络给出的关系r在全局关系图上的潜在嵌入，mr是支持集中关系r下所有句子的平均编码，m是支持集中所有句子的平均编码。直观地说，对于每个关系r，我们从全局关系图中添加潜在嵌入hr，并从该关系的给定示例中添加mr的平均编码。此外，我们还减去支持集中所有句子的平均编码m，以便更好地区分不同关系的句子。在实践中，我们引入两个超参数来控制hr和m的相对权重。有了这样一个初始化，我们可以从经验上保证朗之万的动力学将很快收敛。

Experience

dataset

我们使用两个基准数据集进行评估。
其中一个数据集是FewRel数据集，该数据集最近被提议用于少样本关系分析。注意，FewRel只发布了训练集和验证集，而测试集是不公开的，因此研究人员必须在FewRel团队提供的远程集群上评估模型。因此，我们对FewRel的验证集进行了大部分性能分析，对于测试集，我们只报告最后一个数字。
另一个数据集是NYT-25。NYT-25的原始数据来自FewRel 1的官方网站，该网站通过注释《纽约时报》数据提供了25种关系下的标注句子。然而，数据集还没有被分割成训练集、验证集和测试集。因此，我们随机抽取10个关系进行培训，5个用于验证，其余10个用于测试。
对于这两个数据集，关系都来自一个名为wikidata2的知识图，它总共有828个唯一的关系。为了构建所有关系的全局图，我们首先使用GraphVite（Zhu et al.，2019b）在Wikidata上运行TransE算法（Bordes et al.，2013）来学习每个关系的512维嵌入向量。然后利用关系嵌入构造一个10最近邻图作为全局关系图，并将学习到的关系嵌入作为gnnf中的初始关系特征。

Compared Algorithms

对于所有的元学习算法，我们使用BERTBASE作为编码器将句子投影到encodings中，并在编码上应用线性softmax分类器进行分类，其中使用元学习算法学习分类器中的参数，换句话说就是不同关系的原型向量。

Parameter Settings

在我们的方法中，我们使用BERTBASE（Devlin et al.，2019）作为编码器对一个句子中的所有标记进行编码。然后我们跟踪Soares等人。（2019）并结合句子中实体提及的标记编码作为句子编码。我们对高级元学习算法，即MTB、Proto、MAML、Versa、BMAML做了同样的事情，以便进行公平的比较。我们如何计算句子编码的细节在附录中解释。对于支持句和查询句的似然函数，我们采用10的退火温度。对于原型向量的高斯先验，我们将单层图卷积网络（Kipf&Welling，2017）应用于全局关系图来计算平均值。我们也尝试了更多的层，但只获得了非常小的改进。对于随机梯度Langevin动力学，默认情况下抽取的样本数设置为10，这与其他贝叶斯元学习方法相同，我们对初始步长的样本进行5步更新（即？式（9））中默认为0.1。图形编码器和句子编码器由SGD进行调整，学习率为0.1。对于其他超参数，它们是通过网格搜索在FewRel验证集中选择的。

Result

result1
result2
我们可以看到GNN和SNAIL的结果没有那么有竞争力，说明它们对文本数据的建模效果较差。
与专门为少镜头关系提取而设计的Pair和MTB相比，我们的方法在所有数据中都取得了较好的结果，通过实例说明我们的方法可以更好地推广到各种关系。
此外，我们的方法也优于其他元学习方法。与MAML和prototype网络（Proto）相比，性能增益主要来自两个方面。一方面，我们的方法考虑了不同关系的全局图，它提供了所有关系之间关系的先验知识，从而使我们的方法能够更好地适应不同的关系。另一方面，我们的方法使用了贝叶斯学习框架，有效地处理了不同关系的原型向量的不确定性。
此外，我们的方法也优于其他贝叶斯元学习方法，即Versa和BMAML。原因是我们在后验分布中考虑了一个基于图的先验，使得我们的方法更加强大。此外，我们的方法通过蒙特卡罗抽样和随机梯度朗之万动力学进行优化，以更有效的方式对后验分布进行建模和优化。

消融实验

Graph-based Prior

ablationstudy 此外，利用这种基于图的先验知识，我们的方法能够在零样本学习环境下处理关系抽取，在这种情况下，没有给出每个关系的标记句子。接下来，我们给出了FewRel验证集和NYT-25测试集的结果，以证明这一点。记住，我们的方法基于预先训练的关系嵌入构造关系图，然后应用图神经网络来参数化原型向量的先验。与图神经网络相比，一种更直接的方法是将前向神经网络直接应用于预先训练的关系嵌入中，从而得到原型向量的先验值。为了说明图神经网络的优越性，我们还与上述变体进行了比较。
消融实验在0样本从图中我们可以看出，即使没有任何标记句作为证明，我们的方法仍然能够取得令人印象深刻的效果，这证明了它的有效性。此外，与不使用图神经网络的变量相比，我们的方法在两个数据集中都取得了显著的效果。观察表明，图神经网络可以帮助我们更好地利用关系的关系。

Optimization Algorithm

在这里插入图片描述

消融实验：在这里我们将原型向量的后验参数化为高斯分布的变量进行比较。高斯分布的平均值设置为公式（10）中给出的值，这与我们在朗之万动力学中使用的样本初始化相同。这种变体类似于Versa（Gordon等人，2019）中使用的摊销变分推理方法，这是一种现有的贝叶斯元学习算法。我们将结果显示在表中。6我们发现，我们的朗之万动力学方法比采用摊余变分推断的变分方法取得了相对好的结果，这证明了用朗之万动力学绘制样本来逼近原型向量后验分布的有效性。

在这里插入图片描述

此外，当从后向分布中提取样本时，Langevin dynamics对一组样本执行多步更新。因此，这个过程的两个重要超参数是样本数和更新步骤数。接下来，我们通过灵敏度分析来分析这些超参数。本文以FewRel验证集为例，给出了5路单炮分类的精度。为了更好地理解结果，我们引入了一个变量，其中我们只通过公式（10）初始化原型向量的样本，而不根据公式（9）进一步更新它们。图3（a）显示了不同样本数下的结果。我们可以看到，如果只使用一个或两个样本，结果会很差，甚至比没有更新样本的变量更糟糕。原因是，如果我们只使用很少的样本，公式（8）中对数概率的估计可能具有较大的方差，导致结果较差。当我们使用更多的样本时，结果会迅速改善，并且当使用8-10个样本时，结果会收敛，这是相当有效的。此外，图3（b）给出了不同更新步骤数下的结果。随着步数的增加，准确度也会提高，因为样本正朝着后部的高密度区域移动探索。还有，图3（b）展示了不同更新步骤数下的结果。随着步数的增加，精度也提高了，因为样本正朝着后部的高密度区域移动以进行探测。只需4-5步，精度迅速收敛，非常有效。这一观察结果证明了等式（10）中提出的初始化策略的有效性。

Conclusion

本文研究了在少数镜头学习环境下的关系提取，其关键思想是考虑全局关系图，它捕捉到了关联之间的全局关系。提出了一种新的贝叶斯元学习方法，该方法旨在对原型向量在不同关系下的后向分布进行建模。将图神经网络应用于全局关系图，对后验先验分布进行参数化。利用随机梯度朗格文动力学方法对后向分布进行了优化。通过两个数据集的实验，验证了该方法的有效性。今后，我们计划通过以下已有研究，自动学习关系图的结构（Franceschi等人，2019）。此外，我们还计划将我们的方法应用于其他应用，例如很少的快照图像分类。