Raki的读paper小记:Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models

82 篇文章 10 订阅

Abstract&Introduction&Related Work

  • 研究任务
    • 基于提示学习的ELECTRA
  • 已有方法和相关工作
    • ELECTRA
  • 面临挑战
    • 基于判别模型的预训练模型的few-shot能力很弱
  • 创新思路
    • 使用prompt方法来训练ELECTRA
  • 实验结论
    • ELECTRA learns distributions that align better with downstream tasks.
    • 可以通过聚合表示或概率,自然地使该方法适应multi-token span,而MLMs需要回归式解码来适应multi-token的情况
    • 需要更少的计算,比BERT和RoBERTa更高效,并且效果更好

Prompting Masked Language Models

在这里插入图片描述
使用一个映射将task label空间映射到单词表的空间,任务转变成预测映射后的单词,而且在预测多个masked tokens的时候基于prompt的方法不太直观
在这里插入图片描述

缺点

  • MLM的这种使用方法偏离了预训练的目标
  • 伪自回归解码方法在推理期间不能成批前向推理,在计算上是低效的

Prompting ELECTRA

在这里插入图片描述
分析表明,来自ELECTRA生成器的失败预测实际上可以将具有相反含义的否定词从正确的标记传送到鉴别器,这增强了ELECTRA区分zero-shot预测中具有相反含义概念的能力

ELECTRA可以通过重用discriminative head更容易解决multi-token选项中的任务

Tasks with single-token target words

在这里插入图片描述
对于每一个输入语句创造 在这里插入图片描述个提示,该模型将正确的目标词预测为原始标记,将不正确的目标单词预测为生成的标记
在这里插入图片描述
在推理阶段模型对于每个目标选项,将其放入提示句子并输出最可能的选项

但是需要n个模板那么多词的前向推理,所以效率会低于MLMs

Tasks with multi-token target options

对于一个前提 x x x 和提示模板 T \mathcal{T} T

多个token直接暴力取平均:
在这里插入图片描述
这些方法完全重用ELECTRA的预训练权重,包括判别器头,并避免自回归式解码。与PET类似,由于其与预训练的差异,仅将其用于few-shot微调

Experiments

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Conclusions

我们探索了基于提示的zero-shot和few-shot的判别性预训练模型。我们发现,这些模型的表现一直优于用同等甚至更少的计算量训练出来的MLMs,这表明判别性的预训练模型在zero-shot和few-shot上更有效

分析表明,ELECTRA的生成器很可能将反义词等否定词反馈给判别器,这在预训练期间起到了直接对比的作用

We also speculate that discriminative models are less vulnerable to the surface form competition(表现形式竞争是啥意思?)

我们希望在未来的工作中更深入地挖掘这一假设。

Remark

应该是投ACL的short paper,方法简单且work,毕竟是danqi女神组的工作

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值