Dropout是一种用于降低过拟合程度的手段,本文提出在transformer模型中使用多种Dropout技术,进一步增强其效果。这些技术包括:
- 特征Dropout(传统方式)这种模式已经在transfortmer模型中使用,本文又在两处使用了此种Dropout,其一是在Q、K和V上,另一种是在softmax前。
- LayerDrop。随机舍弃模型中的某些层。
- DataDropout。对数据进行drop。以一定概率保留样本,当应用drop时,以一定概率随机删除token。这两个概率不同。是超参数。
经过分析,这三种dropout技术不能相互替代。
原论文中在机器翻译(IWSLT14数据集)和文本分类(GLUE数据集)上进行了实验,取到了sota。
该方法在过拟合方面也有一定的效果。