Dual-View Distilled BERT for Sentence Embedding

最新推荐文章于 2024-09-18 21:31:01 发布

uncle_ll

最新推荐文章于 2024-09-18 21:31:01 发布

阅读量522

点赞数

分类专栏： NLP 译文文章标签： bert 自然语言处理句子相似度孪生bert 双塔

本文链接：https://blog.csdn.net/uncle_ll/article/details/121098486

版权

译文同时被 2 个专栏收录

22 篇文章 2 订阅

订阅专栏

NLP

3 篇文章 0 订阅

订阅专栏

论文标题：Dual-View Distilled BERT for Sentence Embedding
论文链接：https://arxiv.org/pdf/2104.08675v1.pdf
来源：SIGIR2021

摘要

近年来，BERT通过单词级交叉句子注意实现句子匹配取得了重大进展。然而，当使用孪生BERT网络推导两个句子嵌入时，性能显著下降，由于两个句子之间没有单词级注意，因此无法捕获全局语义。在本文中，提出了一种双视图提取BERT(DvBERT)。我们的方法处理来自两个不同视图的句子对，即siamese视图和interaction视图。siamese视图是生成句子嵌入的主干。interaction视图将交叉句子交互整合为多名教师，以提高句子嵌入的表示能力。在6个STS任务上的实验表明，该方法显著优于最先进的句子嵌入方法。

本文的主要思想是结合双塔模型和交互式模型的优点，对文本相似度的计算进行改进。

1.介绍

最近的句子表示模型如BERT(Devlin等人，2019年)在句子对回归/分类任务上取得了最先进的结果，如问题回答、自然语言推理(NLI)(Bowman等人，2015；Wilmmas等人，2018年)和语义文本相似性(STS)(Agirre等人，2012、2013、2016、2014、2015年)。然而，当候选句子对没有提前给出时，它的计算效率较低，导致了巨大的计算开销。例如，要寻找一个集合中最相关的句子对，就需要对所有的句子进行配对。O(n^2)计算复杂度是阻碍许多远程检索应用程序采用该技术的一个障碍.

一种减少计算的标准方法是将每个句子分别编码成一个向量表示，然后通过相似性距离比较其中的任何两个。然而，与标准的BERT模型相比，句子匹配的性能受到了限制。

例如，SBERT(2019)使用孪生bert网络，在STS基准上(2017)将性能降低了3-4个点，这意味着存在改进的空间。我们认为孪生网络网络仅限于捕获全局语义匹配的全部复杂性，忽略了两个句子的单词级交互特征。但该特征已被证明对预测匹配度至关重要(Lan和Xu，2018；Xuetal.，2020)。

基于这些观察结果，我们提出了一种双视图蒸馏BERT(DvBERT)，通过将单词级交互特征纳入句子嵌入，同时保持与暹罗BERT网络相同的效率。我们从多视图学习中获得灵感(Xu等人，2013；Clark等人，2018)，并从两个观点训练句子匹配模型：

（1）孪生视图，我们从孪生bert网络作为主干，推导句子嵌入，能够通过计算两个固定大小向量上的距离来有效地捕获语义相似性。
（2）交互视图，利用具有跨句子交互的标准预训练模型，作为多个教师，对提供给孪生网络学习的训练集产生预测。这两种观点之间的关联作为一个正则化术语，从多个教师的输出分布中训练软目标，使过程类似于知识蒸馏(Hintonetal. 2015)。
与BERT的其他蒸馏版本相比(Sanh等人，2019；Sun等人，2019)，本文方法旨在优化句子嵌入表示，以及多任务知识蒸馏(Liu等人，2019)，两者都没有将大型模型提炼成小模型（查特吉，2019；Huang等人，2019），或born-again网络（Furlanello等人，2018；Clark等人，2019）。
此外，还比较了蒸馏过程中的损失加权和教师退火策略(Clarketal.，2019)，表明蒸馏过程中效率更高。实验表明，DvBERT在6个STS数据集上具有比孪生bert网络更好的性能。

2.双视图蒸馏BERT

首先介绍了DvBERT，并描述了如何将这些视图与多任务知识蒸馏相结合
在这里插入图片描述

基于上面的cross sentence模型，结合Siamese BERT模型进行训练,最后共同优化预测得到的值Y。最后如果要用句向量的话就直接用Siamese结构的输出

2.1 Siamese BERT-networks

在这里插入图片描述

对于给定的数据集D_l，孪生网络网络旨在通过利用句子嵌入之间的相似性度量来预测标签y∈Y，其中自然语言推理中的Y={隐含、矛盾、中性}。对于任何句子对，孪生BERT将这两个句子分别转换为连续向量，然后将这两个向量池化为两个句子嵌入u和v。SBERT(Reimers和Gurevych，2019)比较了来自多个数据集的不同池化策略，结果是MEAN策略明显优于MAX和[CLS]标记策略。下面，MEAN池是本文的默认配置。对于分类任务，如NLI，我们将u、v和|u−v|连接，然后连接一个全连接层，将隐藏大小投影到概率分布中。
在这里插入图片描述

其中θ表示来自BERT的所有可学习参数，为u，v共享。而W∈R^(3d×n)是全连接层的参数。d是句子嵌入的维数。我们优化了标准的交叉熵损失。

Siamese BERT是普通的双塔结构，通常会把两句话分别输入到两个模型中。两个模型可以选择共享参数，也可以不共享。通过MEAN的方式的得到每个句子的向量之后，过一层SoftMax，得到每个类别的概率。

2.2 Cross Sentence Interaction

在这里插入图片描述

使用来自不同预先训练模型的多个教师来引入跨单词的交互矩阵，以丰富单词级的交互特征。

每个模型首先用标记的数据进行预训练，然后重新标记数据，并将其添加到一个新的训练集中。

具体来说，如图1(top)所示，将句子对Q={Qi}i=1，...，m和T={Ti}i=1，...，N连接到一个文本序列[[CLS]Q[SEP]T[SEP]]中。[CLS]标记被认为是输入句子对的一个聚合语义间隙，因为它被用来预测在预训练过程中一个句子对是否连贯。

先训练两个cross sentence交互式文本分类模型，作为Teacher。

假设zck是第k个预训练模型的[CLS]标记，它后面跟着一个全连接层，最终以一个softmax层作为分类器

在这里插入图片描述

其中φk和O∈Rd×n为模型参数。孪生BERT从硬目标学习，从老师的软目标学习。假设φk和O是通过交叉熵损失进行了优化，DvBERT通过最小化来训练孪生BERT

在训练学生时固定老师预测器q(y|zck；φ)。

2.3 Teacher Annealing

我们利用教师退火策略(Clarketal.，2019)，该策略将教师的预测与黄金标签（真实标签）混合在一起。随着训练的进行，教师的退火逐渐减少了软目标的重量，使学生从教师学习到硬目标。该方法确保学生在训练早期得到丰富的训练信号，而不仅仅限于模拟老师。具体来说，总结孪生BERT和其他与K BERT相关的具有交叉句子注意的预训练模型，目标可以写成：

在这里插入图片描述

其中λ从0到1呈线性增加。一开始，λ=0，这意味着该模型完全基于教师的软目标进行训练。随着模型的逐渐收敛，模型从硬目标中学习。

3. 实验

在本节中，将介绍对NLI和STS数据集的处理方法。.

3.1 数据集

NLI数据集由SNLI(Bowman等人，2015)和MultiNLI(Williams等人，2018)组成，标注了标签矛盾、隐含和中性。STS(Agirreetal.，2012)评估了两个句子在语义上彼此等价的匹配程度，并为人类注释了从1到5的等价水平。我循之前的工作(Conneau等人，2017；Cer等人，2018)，将两个NLI数据中的训练和测试数据集合并为940k句子对的训练前数据集。STS2012-2016数据集没有训练数据，只有26k个测试数据，因此这些数据集用于评估NLI上预训练的DvBERT。STS-B是一个包含8.6k个句子对的集合，包含来自异构来源的训练、开发和测试集。

3.2 训练和评估设置

在NLI数据集上使用一个3-way softmax对DvBERT进行了一次预训练。 batch size 设置为16，所有模块的dropout rate 设置为0.1。使用Adam optimizer 训练。将初始学习率设置为2e-5，衰减比为1.0，是一个超过10%的线性学习率预热。对于fune-tuning STS-B，将之前公式中的(u，v，|u−v|)替换为余弦(u，v)，并将距离度量设置为均方误差损失，用于回归训练。epoch被设置为4，其他超参数与NLI任务设置保持相同。基本上保持超参数与SBERT保持一致。两位默认教师分别是标准的BERT和RoBERTa。此外，还通过将孪生BERT替换为RoBERTa来评估DvRoBERTa的性能。

3.3 无监督STS

使用STS2012-2016和STS-B的测试数据，在没有任何特定任务的训练数据的情况下评估性能。使用句子嵌入的余弦相似性和黄金标签之间的斯皮尔曼相关性。结果报告见表1。前两行显示，没有在NLI上进行训练的BERT被MEAN或[CLS]标记汇集的性能相当差。特别是对于[CLS]标记，由于它主要是用来区分段对，是否具有连贯性，因此单句表示存在差异。在6个STS数据集上评估了我们的方法与SBERT(SRoBERTa)的比较。可以观察到，在NLI上进行预训练的模型比那些没有提高了很大的边际。双视图方法显著影响了两个预训练模型的性能，获得了0.56%-1.9%的平均改进

在这里插入图片描述