【论文泛读169】少数线索:中文的小样本学习评估基准

FewCLUE是中国首个全面的小样本学习评估基准,包括9个NLU任务,促进了对预训练语言模型在小样本场景下性能的公平比较。研究表明,PET是五种评估方法中表现最佳的。此外,基准提供了额外的未标记数据和多种训练/验证集,以提高评估的稳定性和准确性。
摘要由CSDN通过智能技术生成

贴一下汇总贴:论文阅读记录

论文链接:《FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark》

一、摘要

预训练语言模型 (PLM) 在自然语言理解任务中取得了巨大成功。虽然针对英语等语言已经广泛探索和比较了不同的学习方案——微调、零样本和少样本学习——但在中文方面,公平、全面地评估和比较这些方法的工作相对较少。这项工作首先介绍了中文小样本学习评估基准(FewCLUE),这是中文第一个综合性小样本评估基准。它包括九个任务,从单句和句子对分类任务到机器阅读理解任务。鉴于小样本学习性能的高方差,我们提供了多个训练/验证集,以促进对小样本建模的更准确和稳定的评估。提供了每项任务最多包含 20,000 个额外样本的未标记训练集,使研究人员能够探索使用未标记样本的更好方法。接下来,我们实现了一组最先进的 (SOTA) 小样本学习方法(包括 PET、ADAPET、LM-BFF、P-tuning 和 EFL),并将它们的性能与微调和零-新构建的FewCLUE基准上的镜头学习方案。我们的结果表明:1)所有五种小镜头学习方法都表现出比微调或零镜头学习更好的性能;2)五种方法中,PET是表现最好的少拍方法;3)小样本学习性能高度依赖于特定任务。我们的基准测试和代码可在 允许研究人员探索使用未标记样本的更好方法。接下来,我们实现了一组最先进的 (SOTA) 小样本学习方法(包括 PET、ADAPET、LM-BFF、P-tuning 和 EFL)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值