1.介绍
本文从bert的transformer扩展了the Bidirectional Encoder Representations,强调了共同直接的coattention,此项研究提高了F1值(采用SQUAD2 dataset )我们在bert结构中添加了更多的attention 在context to query C2Q 以及query to context Q2C 。我们发现coattention 极大提高了无答案的F1值在base版的四个方面,以及更大结构的一个方面。
通过预训练文本embedding项目,我们提出BERTQA来增加C2Q和Q2C attention 来做局部特征提取。在做完超参数调优过后,我们集合了最好的网络结构来得到F1值以及EM 分数82.317和79.442
2.相关工作
我们查阅了QANET 模型,这个模型通过后向网络强调卷积层的使用来捕捉文本的局部区域。我们从论文中收获到三个点:第一个是U-net : 机器阅读理解无法回答的问题。阅读理解的注意力-过度注意神经网络。FlowQA :掌握历史中的流程,帮助机器理解会话。我们探索了FlowQA论文,该论文提出将来自多个层的embedding作为最终预测层的输入。
3.方法
我们补充了通过一个卷积层局部特征提取来增加局部信息建立在QANET架构。我们得知bert是通过12层的Transformer encoder blocks 形成的。这些blocks也包含了多注意头和一个前项传播网络。多注意头的每个head都尝试连接文本和问题输入由此形成global 注意输出。我们的结构包括了7个directed coattention blocks ,我们插入进bert的embedding和最终loss计算线性层当中。
文本和问题可以如此被masked,我们在这里使用了两个卷积层,这样连接的维数就会逐渐减少,这样太多的信息就不会丢失了。
Localized Feature Extraction :
我们推测,由于卷积是有损压缩器,而卷积丢失的信息可能对下游学习至关重要,所以卷积阻止了超过F1分数的改进。
我们实验了三个方面:Simple ResNet inspired Skip, Self-Attention Transformer Skip, and a Highway Network
这允许直接共同注意层通过跳过从BERT嵌入中学习不同的信息,并允许反向传播到BERT层。
Data Augmentation - SQuAD 2.Q
35%, 50%, and 100% augmentation
4.结果和分析
我们提出了一种新的架构方案,使用transformer来帮助网络学习定向共注意,这提高了性能,超过BERT baseline。我们实验了几个架构的例子,并提出了消融研究。我们提出SQuAD 2Q,一个增强的数据集,使用NMT backtranslation有助于开发。我们的模型推广更好语法差异。