书生·浦语大模型 笔记+作业 OpenCompass 大模型评测 关于评测的三个问题 为什么要评测? 评测的内容 传统的NLP任务评测 大模型评测方向 怎么去评测 针对基座模型,需要加上提示词;针对对话模型,直接进行提问 客观评测 主观评测 国内外评测数据集 #大模型评测领域的挑战 作业 用ceval测试internlm2 chat 7b 模型(先评测第一个类别:计算机网络,其他的后续补上)