可扩展性长文本评测集——Ada-LEval 详细解读
对于一篇长文本 (例如小说),我们从中截取部分分为 N 段,打乱次序提供给 LLM (截取部分的前后临近段落也会作为上下文提供),并要求 LLM 输出段落的正确顺序。因此,在测试过程中,我们仅使用生成式的测试,而非基于 PPL。我们发现,大部分的长文本模型在这一测试集上的表现都不尽如意。开源了评测数据与代码,并提供了评测 InternLM2 与 GPT-4 的样例,以便于社区评测其他的大语言模型。随着大模型能够处理的上下文信息越来越多,达到百万级别的词汇量,人们对于模型长文本能力的研究兴趣也随之增长。
原创
2024-07-29 11:53:47 ·
1041 阅读 ·
0 评论