rwkv4测试数据集
1、arc基准测试(https://opendatalab.com/OpenDataLab/ARC/tree/main)
一个为多项选择题回答而设计的数据集,包括从三年级到九年级的科学考试问题。它有简单和挑战子集,我们分别报告结果。
2、BoolQ Dataset (https://github.com/google-research-datasets/boolean-questions)
BoolQ 是一个包含 15942 个示例的是非问题问答数据集。这些问题都是自然发生的——它们是在无提示和无约束的环境中生成的。
3、XCOPA(https://github.com/cambridgeltl/xcopa)
跨语言合理替代方案选择数据集是评估机器学习模型跨语言传输常识推理能力的基准。该数据集是英语COPA(Roemmele 等人,2011 年)的翻译和重新标注,涵盖 11 个语系和全球多个地区的 11 种语言。
4、HEDD-QA(https://huggingface.co/datasets/dvilares/head_qa)
HEAD-QA 是一个多选题的医疗保健数据集。这些问题来自西班牙医疗保健系统中专业职位的考试,即使对于高度专业的