【书生·浦语大模型实战营第二期】OpenCompass 大模型评测实战——学习笔记7

最新推荐文章于 2024-09-01 10:46:24 发布

自律版光追

最新推荐文章于 2024-09-01 10:46:24 发布

阅读量381

点赞数 3

分类专栏： # LLM 文章标签：学习笔记 LLM 书生·浦语 OpenCompass LLM评测 internlm

本文链接：https://blog.csdn.net/m0_61819793/article/details/138398933

版权

LLM 专栏收录该内容

25 篇文章 1 订阅

订阅专栏

文章目录

- 使用OpenCompass评测llm的步骤
- 实践操作
参考资料

为什么要做大模型的评测

为了了解llm的优势和限制
指导和改进人类与llm的交互
规划llm未来的发展
根据llm的评测报告，针对不同的问题，选择最合适的模型

评测对象
基座模型和chat模型

使用OpenCompass评测llm的步骤

配置：配置整个评估过程，选择要评估的模型和数据集，选择评估策略、计算后端等，定义显示结果的方式
推理和评估
可视化

实践操作

安装opencompass工具

评测数据准备

/share/temp/datasets/OpenCompassData-core-20231110.zip # 数据集地址

unzip OpenCompassData-core-20231110.zip # 解压缩

查看支持的数据集和模型

启动评测
首先以--debug模式启动评估

python run.py --datasets ceval_gen --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug