Replaced Token Detection (RTD)是一种改进的预训练效率的新方法,与BERT(Masked Language Modeling,MLM)不同,它利用 GAN 的思想,生成对抗网络构造两个编码器层进行对抗训练,它使用生成器来生成模糊的替换token,并使用鉴别器来区分原始token和生成器替换的token。RTD的目标是训练鉴别器,以便识别输入序列中的替换的token。
Gradient-Disentangled Embedding Sharing(GDES)是一种新的嵌入共享方法,它在ELECTRA中将鉴别器和生成器共享相同的令牌嵌入。但是分析表明,嵌入共享会损害训练效率和模型性能,因为鉴别器和生成器的训练目标非常不同。用于训练生成器的MLM试图将语义相似的令牌拉近彼此,而鉴别器的RTD试图区分语义相似的令牌,并将它们的嵌入拉得尽可能远,以优化二元分类准确性。这就产生了“拔河”动态。另一方面,当在进行下游任务上微调鉴别器时,使用为生成器和鉴别器分离的嵌入会导致显着的性能降低,这表明嵌入共享的优点,例如生成器的嵌入有助于产生更好的鉴别器。为了寻求权衡,我们提出了一种新的梯度解耦嵌入共享(GDES)方法,其中生成器与鉴别器共享其嵌入,但阻止鉴别器中的梯度从生成器嵌入中反向传播,以避免拔河过程,并允许模型以与NES(No Embedding Sharin)相同的效率进行训练。经验证明,GDES提高了预训练效率和预训练模型的质量。
内容和位置嵌入向量的方法: