本文是LLM系列文章,针对《Token-Efficient Leverage Learning in Large Language Models》的翻译。
摘要
大型语言模型(LLM)在各种任务中表现出色,但在高资源场景中表现更好,这在低资源场景中带来了挑战。数据稀缺和使LLM适应特定任务的固有困难加剧了这一挑战。为了解决这两个障碍,我们引入了杠杆学习。我们提出了一种简化的方法,称为token高效杠杆学习(TELL)。TELL展示了杠杆学习的潜力,展示了各种LLM和低资源任务的有效性,从104到106个token不等。与传统的监督微调(SFT)相比,它将任务数据要求降低了近一个数量级,同时提供了具有竞争力的性能。在任务数据量相同的情况下,与SFT相比,TELL在提高任务性能方面处于领先地位。我们讨论了杠杆学习的机制,表明它与量化假设相一致,并通过实证检验探索了其有前景的潜力。
引言
2 相关工作
3 杠杆学习和TELL
4 实验
5 结论
我们引入了Leverage Learning,这是一种在低资源任务