【书生·浦语大模型实战营】第7节:OpenCompass 大模型评测实战(笔记及作业)

【书生·浦语大模型实战营】第7节:OpenCompass 大模型评测实战(笔记及作业)

笔记

视频:https://www.bilibili.com/video/BV1Pm41127jU/?spm_id_from=333.788&vd_source=724260feabc8c4fa14ba533aaff72464

文档:https://github.com/InternLM/Tutorial/blob/camp2/opencompass/readme.md

在这里插入图片描述

在这里插入图片描述

评测的具体模型类型按照基座模型和对话模型划分

在这里插入图片描述

在这里插入图片描述

OpenCompass 采取客观评测与主观评测相结合的方法。针对具有确定性答案的能力维度和场景,通过构造丰富完善的评测集,对模型能力进行综合评价。针对体现模型能力的开放式或半开放式的问题、模型安全问题等,采用主客观相结合的评测方式。

客观评测用定量指标比较模型的输出与标准答案以进行评测,主管评测则是用高性能的大模型模拟人类进行主观打分

作业

使用OpenCompass评测internlm2-chat-1_8b模型在C-Eval数据集上的性能

环境配置

studio-conda -o internlm-base -t opencompass
source activate opencompass
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .

数据准备

cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip

查看所有和InternLM 及 C-Eval 相关的配置

在这里插入图片描述

  • 实现对internlm2-chat-1_8b模型在C-Eval数据集上的性能评测

    python run.py --datasets ceval_gen --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug
    

    在这里插入图片描述

    评测结果

    在这里插入图片描述

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值