前言
这是一篇学习第三期书生大模型实战营的记录。
TASK一、使用 OpenCompass 评测 internlm2-chat-1.8b 模型在 ceval 数据集上的性能,记录复现过程并截图。
再a100上做的OpenCompass评测,花了大概4个小时,从图中看出internlm2-chat-1.8b模型在ceval-middle_school_biology,ceval-middle_school_chemistry等中学题目上表现良好,在ceval-computer_architecture 计算机架构方面表现欠佳。