DeBERTaV3

RTD是一种基于GAN的预训练方法,通过生成器和鉴别器的对抗训练提高效率。然而,GDES发现嵌入共享可能影响效率和性能,因生成器和鉴别器目标相悖。为解决此问题,提出了GDES,允许共享嵌入但阻止鉴别器梯度反传,提高了预训练效率和模型质量。
摘要由CSDN通过智能技术生成
  • Replaced Token Detection (RTD)是一种改进的预训练效率的新方法,与BERT(Masked Language Modeling,MLM)不同,它利用 GAN 的思想,生成对抗网络构造两个编码器层进行对抗训练,它使用生成器来生成模糊的替换token,并使用鉴别器来区分原始token和生成器替换的token。RTD的目标是训练鉴别器,以便识别输入序列中的替换的token。

  • Gradient-Disentangled Embedding Sharing(GDES)是一种新的嵌入共享方法,它在ELECTRA中将鉴别器和生成器共享相同的令牌嵌入。但是分析表明,嵌入共享会损害训练效率和模型性能因为鉴别器和生成器的训练目标非常不同。用于训练生成器的MLM试图将语义相似的令牌拉近彼此,而鉴别器的RTD试图区分语义相似的令牌,并将它们的嵌入拉得尽可能远,以优化二元分类准确性。这就产生了“拔河”动态。另一方面,当在进行下游任务上微调鉴别器时,使用为生成器和鉴别器分离的嵌入会导致显着的性能降低,这表明嵌入共享的优点,例如生成器的嵌入有助于产生更好的鉴别器。为了寻求权衡,我们提出了一种新的梯度解耦嵌入共享(GDES)方法,其中生成器与鉴别器共享其嵌入,但阻止鉴别器中的梯度从生成器嵌入中反向传播,以避免拔河过程,并允许模型以与NES(No Embedding Sharin)相同的效率进行训练。经验证明,GDES提高了预训练效率和预训练模型的质量。

  • 内容和位置嵌入向量的方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值