16:BERTQA -- Attention on Steroids

1.介绍

本文从bert的transformer扩展了the Bidirectional Encoder Representations,强调了共同直接的coattention,此项研究提高了F1值(采用SQUAD2 dataset )我们在bert结构中添加了更多的attention 在context to query C2Q 以及query to context Q2C 。我们发现coattention 极大提高了无答案的F1值在base版的四个方面,以及更大结构的一个方面。

通过预训练文本embedding项目,我们提出BERTQA来增加C2Q和Q2C attention 来做局部特征提取。在做完超参数调优过后,我们集合了最好的网络结构来得到F1值以及EM 分数82.317和79.442

2.相关工作

我们查阅了QANET 模型,这个模型通过后向网络强调卷积层的使用来捕捉文本的局部区域。我们从论文中收获到三个点:第一个是U-net : 机器阅读理解无法回答的问题。阅读理解的注意力-过度注意神经网络。FlowQA :掌握历史中的流程,帮助机器理解会话。我们探索了FlowQA论文,该论文提出将来自多个层的embedding作为最终预测层的输入。

3.方法

我们补充了通过一个卷积层局部特征提取来增加局部信息建立在QANET架构。我们得知bert是通过12层的Transformer encoder blocks 形成的。这些blocks也包含了多注意头和一个前项传播网络。多注意头的每个head都尝试连接文本和问题输入由此形成global 注意输出。我们的结构包括了7个directed coattention blocks ,我们插入进bert的embedding和最终loss计算线性层当中。

 

 

文本和问题可以如此被masked,我们在这里使用了两个卷积层,这样连接的维数就会逐渐减少,这样太多的信息就不会丢失了。

Localized Feature Extraction :

我们推测,由于卷积是有损压缩器,而卷积丢失的信息可能对下游学习至关重要,所以卷积阻止了超过F1分数的改进。

 

我们实验了三个方面:Simple ResNet inspired Skip, Self-Attention Transformer Skip, and a Highway Network 

这允许直接共同注意层通过跳过从BERT嵌入中学习不同的信息,并允许反向传播到BERT层。

Data Augmentation - SQuAD 2.Q 

 

35%, 50%, and 100% augmentation 

 

4.结果和分析

 

 

 

 

我们提出了一种新的架构方案,使用transformer来帮助网络学习定向共注意,这提高了性能,超过BERT baseline。我们实验了几个架构的例子,并提出了消融研究。我们提出SQuAD 2Q,一个增强的数据集,使用NMT backtranslation有助于开发。我们的模型推广更好语法差异。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值