【论文泛读169】少数线索：中文的小样本学习评估基准

最新推荐文章于 2024-03-06 19:51:38 发布

及时行樂_

最新推荐文章于 2024-03-06 19:51:38 发布

阅读量511

点赞数 1

分类专栏：论文 # NLP_paper 文章标签： paper 小样本评估

本文链接：https://blog.csdn.net/qq_41485273/article/details/118860974

版权

FewCLUE是中国首个全面的小样本学习评估基准，包括9个NLU任务，促进了对预训练语言模型在小样本场景下性能的公平比较。研究表明，PET是五种评估方法中表现最佳的。此外，基准提供了额外的未标记数据和多种训练/验证集，以提高评估的稳定性和准确性。

摘要由CSDN通过智能技术生成

贴一下汇总贴：论文阅读记录

论文链接：《FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark》

一、摘要

预训练语言模型 (PLM) 在自然语言理解任务中取得了巨大成功。虽然针对英语等语言已经广泛探索和比较了不同的学习方案——微调、零样本和少样本学习——但在中文方面，公平、全面地评估和比较这些方法的工作相对较少。这项工作首先介绍了中文小样本学习评估基准（FewCLUE），这是中文第一个综合性小样本评估基准。它包括九个任务，从单句和句子对分类任务到机器阅读理解任务。鉴于小样本学习性能的高方差，我们提供了多个训练/验证集，以促进对小样本建模的更准确和稳定的评估。提供了每项任务最多包含 20,000 个额外样本的未标记训练集，使研究人员能够探索使用未标记样本的更好方法。接下来，我们实现了一组最先进的 (SOTA) 小样本学习方法（包括 PET、ADAPET、LM-BFF、P-tuning 和 EFL），并将它们的性能与微调和零-新构建的FewCLUE基准上的镜头学习方案。我们的结果表明：1）所有五种小镜头学习方法都表现出比微调或零镜头学习更好的性能；2）五种方法中，PET是表现最好的少拍方法；3）小样本学习性能高度依赖于特定任务。我们的基准测试和代码可在允许研究人员探索使用未标记样本的更好方法。接下来，我们实现了一组最先进的 (SOTA) 小样本学习方法（包括 PET、ADAPET、LM-BFF、P-tuning 和 EFL）