贴一下汇总贴:论文阅读记录
论文链接:《FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark》
一、摘要
预训练语言模型 (PLM) 在自然语言理解任务中取得了巨大成功。虽然针对英语等语言已经广泛探索和比较了不同的学习方案——微调、零样本和少样本学习——但在中文方面,公平、全面地评估和比较这些方法的工作相对较少。这项工作首先介绍了中文小样本学习评估基准(FewCLUE),这是中文第一个综合性小样本评估基准。它包括九个任务,从单句和句子对分类任务到机器阅读理解任务。鉴于小样本学习性能的高方差,我们提供了多个训练/验证集,以促进对小样本建模的更准确和稳定的评估。提供了每项任务最多包含 20,000 个额外样本的未标记训练集,使研究人员能够探索使用未标记样本的更好方法。接下来,我们实现了一组最先进的 (SOTA) 小样本学习方法(包括 PET、ADAPET、LM-BFF、P-tuning 和 EFL),并将它们的性能与微调和零-新构建的FewCLUE基准上的镜头学习方案。我们的结果表明:1)所有五种小镜头学习方法都表现出比微调或零镜头学习更好的性能;2)五种方法中,PET是表现最好的少拍方法;3)小样本学习性能高度依赖于特定任务。我们的基准测试和代码可在 允许研究人员探索使用未标记样本的更好方法。接下来,我们实现了一组最先进的 (SOTA) 小样本学习方法(包括 PET、ADAPET、LM-BFF、P-tuning 和 EFL)