Abstract&Introduction&Related Work
- 研究任务
- 基于提示学习的ELECTRA
- 已有方法和相关工作
- ELECTRA
- 面临挑战
- 基于判别模型的预训练模型的few-shot能力很弱
- 创新思路
- 使用prompt方法来训练ELECTRA
- 实验结论
- ELECTRA learns distributions that align better with downstream tasks.
- 可以通过聚合表示或概率,自然地使该方法适应multi-token span,而MLMs需要回归式解码来适应multi-token的情况
- 需要更少的计算,比BERT和RoBERTa更高效,并且效果更好
Prompting Masked Language Models
使用一个映射将task label空间映射到单词表的空间,任务转变成预测映射后的单词,而且在预测多个masked tokens的时候基于prompt的方法不太直观
缺点
- MLM的这种使用方法偏离了预训练的目标
- 伪自回归解码方法在推理期间不能成批前向推理,在计算上是低效的
Prompting ELECTRA
分析表明,来自ELECTRA生成器的失败预测实际上可以将具有相反含义的否定词从正确的标记传送到鉴别器,这增强了ELECTRA区分zero-shot预测中具有相反含义概念的能力
ELECTRA可以通过重用discriminative head更容易解决multi-token选项中的任务
Tasks with single-token target words
对于每一个输入语句创造 个提示,该模型将正确的目标词预测为原始标记,将不正确的目标单词预测为生成的标记
在推理阶段模型对于每个目标选项,将其放入提示句子并输出最可能的选项
但是需要n个模板那么多词的前向推理,所以效率会低于MLMs
Tasks with multi-token target options
对于一个前提
x
x
x 和提示模板
T
\mathcal{T}
T
多个token直接暴力取平均:
这些方法完全重用ELECTRA的预训练权重,包括判别器头,并避免自回归式解码。与PET类似,由于其与预训练的差异,仅将其用于few-shot微调
Experiments
Conclusions
我们探索了基于提示的zero-shot和few-shot的判别性预训练模型。我们发现,这些模型的表现一直优于用同等甚至更少的计算量训练出来的MLMs,这表明判别性的预训练模型在zero-shot和few-shot上更有效
分析表明,ELECTRA的生成器很可能将反义词等否定词反馈给判别器,这在预训练期间起到了直接对比的作用
We also speculate that discriminative models are less vulnerable to the surface form competition(表现形式竞争是啥意思?)
我们希望在未来的工作中更深入地挖掘这一假设。
Remark
应该是投ACL的short paper,方法简单且work,毕竟是danqi女神组的工作