DeFormer Decomposing Pre-trained Transformers for Faster Question Answering

「已注销」

已于 2022-02-28 12:37:18 修改

阅读量384

点赞数

分类专栏：论文笔记文章标签： transformer 深度学习人工智能

于 2022-02-28 12:36:36 首次发布

本文链接：https://blog.csdn.net/Jeaksun/article/details/123179823

版权

DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering

DeFormer：分解预先训练好的Transformers以提高问题回答速度

TF code

Abstract

BERTQA中应用了大量的自注意力，导致了模型训练的速度很慢并且占用大量内存。本文提出一个Deformer模型用于分解transformer，具体来说用较低层的question-wide和passage-wide的self-attention(分别计算self-attention)替代question-passage的全局注意力，由于Deformer与原始模型很相似，因此用原始的transformer的预训练权重初始化Deformer。速度提升了4倍，通过简单的知识蒸馏，准确度仅下降1%。

1 Introduction

基于Transformer的模型中，大部分的计算开销都是来自每一层的自注意力计算。在MRC式的QA中，算力主要是消耗在问题和passage的自注意力计算，虽然自注意力有助于模型创建高效的问题上下文表示，但是构建context表示需要更多的时间，因为context的长度总是比question长的多，如果context可以独立于问题进行处理，那么最难计算的context表示就减少了一部分和question的attention计算，可以加速QA过程。有研究表明：transformer较低层编码倾向于关注一些局部特征，如词形、语法等；较高层才逐渐编码与下游任务相关的全局语义信息（远距离信息）。也就是说：在较低层passage编码对question的依赖不高，因此本文采用的在较低层对question和context分别编码，在较高层联合处理(形成question-context联合表征进行交互编码)，如图1所示：

假设n层模型中的前K个较低层独立的处理question和context，Deformer将两个第K层的表示作为输入馈送到第K+1层，这种方法很显然能减少运算量和内存。Deformer的上层应该生成与transformer相应层相同类型信息的表示，因此本文增加了两个蒸馏式损失，目的是用于最小化分解模型和原始模型之间的高层表征和分类层logits。

在三个QA数据集上进行评估模型，分别基于BERT和XLNet。速度提升了2.7 to 3.4倍，内存减少了65.8% to 72.9%，性能减少了0.6 to 1.8。BERT-large比BERT-base速度更快，精确度更高。

2 The Approach

基于transformer模型的MRC框架是计算question-context上的self-attention。这种方式产生了输入对的高效表示，因为从文本中提取什么信息通常取决于问题。想要降低复杂性，可以牺牲一些代表性能力来换取脱机处理文本的能力（脱机文件：一般指保存的网页，即不联网也能浏览网页的内容）。本文也测量了文本表示在与不同问题配对时的变化（计算了上下文与不同问题配对时的段落表征方差），得出结论：在较低层中文本表示的变化不像在较高层中的那么大，这表明在较低层中忽略question-context的注意力计算影响不会太大。先前的研究也表明：较低层倾向于对局部现象（词性、句法类别等）建模，较高层倾向于对依赖任务（实体共指）的更多语义现象进行建模。

2.1 DeFormer

定义两段文本表示 $T_a、T_b$ 的配对任务的transformer计算。

$T a$ 嵌入的表示是： $\mathrm{A}=[a_1;a_2;...;a_q]$

$T_b$ 嵌入的表示是： $\mathrm{B}=[b_1;b_2;...;b_p]$

完整的输入序列X表示为: $\mathrm{X}=[\mathrm{A};\mathrm{B}]$

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
DeFormer Decomposing Pre-trained Transformers for Faster Question Answering

DeFormer: Decomposing Pre-trained Transformers for Faster Question AnsweringDeFormer：分解预先训练好的Transformers以提高问题回答速度TF codeAbstract BERTQA中应用了大量的自注意力，导致了模型训练的速度很慢并且占用大量内存。本文提出一个Deformer模型用于分解transformer，具体来说用较低层的question-wide和passage-wide的self-attentio.
复制链接

扫一扫