第三期书生大模型实战营——OpenCompass 评测 InternLM-1.8B 实践

基础任务

  • 使用 OpenCompass 评测 internlm2-chat-1.8b 模型在 ceval 数据集上的性能,记录复现过程并截图。

配置:这是评估工作的起点,需要设定评估的模型、数据集、评估策略和计算后端,以及定义结果展示的方式。

推理与评估:OpenCompass将对模型和数据集进行并行推理和评估。推理阶段生成模型输出,评估阶段比较输出与标准答案。

可视化:评估完成后,结果将以表格形式呈现,并保存为CSV和TXT文件。

数据准备

  • 解压评测数据集到指定目录。
  • 确保数据集路径与OpenCompass配置一致。

配置文件和模型列表

  • 使用list_configs.py脚本列出与InternLM和C-Eval相关的配置文件。
  • 根据需要选择合适的模型配置。

启动评测

  • 编辑模型配置文件,指定模型路径、分词器路径等参数。
  • 使用命令行或配置文件启动评测过程,可以首先使用--debug模式检查问题。
  • 评测完成后,结果将在控制台输出并保存到指定目录。
  • 评测结果

  • 评测完成后,控制台将显示每个数据集的版本、指标、模式和模型性能。
  • 结果以表格形式展示,包括准确率等关键指标。
  • 5
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值