OpenCompass 评测 InternLM-1.8B 实践

墨心@

已于 2024-07-23 06:44:34 修改

阅读量641

点赞数 4

文章标签： nlp 语言模型人工智能自然语言处理笔记

于 2024-07-23 06:19:46 首次发布

本文链接：https://blog.csdn.net/qq_42137576/article/details/140624318

版权

OpenCompass 评测 internlm2-chat-1_8b 模型在 mmlu 数据集上的性能

OpenCompass介绍

上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” (OpenCompass2.0)，用于为大语言模型、多模态模型等提供一站式评测服务。其主要特点如下：

开源可复现：提供公平、公开、可复现的大模型评测方案
全面的能力维度：五大维度设计，提供 70+ 个数据集约 40 万题的的模型评测方案，全面评估模型能力
丰富的模型支持：已支持 20+ HuggingFace 及 API 模型
分布式高效评测：一行命令实现任务分割和分布式评测，数小时即可完成千亿模型全量评测
多样化评测范式：支持零样本、小样本及思维链评测，结合标准型或对话型提示词模板，轻松激发各种模型最大性能
灵活化拓展：想增加新模型或数据集？想要自定义更高级的任务分割策略，甚至接入新的集群管理系统？OpenCompass 的一切均可轻松扩展！

评测对象

本算法库的主要评测对象为语言大模型与多模态大模型。我们以语言大模型为例介绍评测的具体模型类型。

基座模型：一般是经过海量的文本数据以自监督学习的方式进行训练获得的模型（如OpenAI的GPT-3，Meta的LLaMA），往往具有强大的文字续写能力。
对话模型：一般是在的基座模型的基础上，经过指令微调或人类偏好对齐获得的模型（如OpenAI的ChatGPT、上海人工智能实验室的书生·浦语），能理解人类指令，具有较强的对话能力。

快速开始

在这里插入图片描述

概览

在 OpenCompass 中评估一个模型通常包括以下几个阶段：配置 -> 推理 -> 评估 -> 可视化。

配置：这是整个工作流的起点。您需要配置整个评估过程，选择要评估的模型和数据集。此外，还可以选择评估策略、计算后端等，并定义显示结果的方式。
推理与评估：在这个阶段，OpenCompass
将会开始对模型和数据集进行并行推理和评估。推理阶段主要是让模型从数据集产生输出，而评估阶段则是衡量这些输出与标准答案的匹配程度。这两个过程会被拆分为多个同时运行的“任务”以提高效率，但请注意，如果计算资源有限，这种策略可能会使评测变得更慢。如果需要了解该问题及解决方案，可以参考
FAQ: 效率。
可视化：评估完成后，OpenCompass 将结果整理成易读的表格，并将其保存为 CSV 和 TXT文件。你也可以激活飞书状态上报功能，此后可以在飞书客户端中及时获得评测状态报告。接下来，我们将展示 OpenCompass 的基础用法，展示书生浦语在 C-Eval 基准任务上的评估。它们的配置文件可以在 configs/eval_demo.py 中找到。

环境配置

创建开发机和conda环境

在创建开发机界面选择镜像为 Cuda11.7-conda，并选择 GPU 为10% A100。

面向GPU的环境安装

执行以下命令

studio-conda -o internlm-base -t opencompass
source activate opencompass

安装成功如下所示：
在这里插入图片描述
开始clone opencompass，执行以下命令：

git clone -b 0.2.4 https://github.com/open-compass/opencompass

如下图所示，即为下载成功。
在这里插入图片描述
开始安装环境依赖的包,执行以下命令。

cd opencompass
pip install -e .

如果pip install -e .安装未成功,请运行:

pip install -r requirements.txt

数据准备
解压评测数据集到 data/ 处

cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip

如下图所示：
在这里插入图片描述
查看支持的数据集和模型
列出所有跟 InternLM 及 mmlu相关的配置

python tools/list_configs.py internlm mmlu

将会看到评测的模型如下所示：

+----------------------------------------+----------------------------------------------------------------------+
| Model                                  | Config Path                                                          |
|----------------------------------------+----------------------------------------------------------------------|
| hf_internlm2_1_8b                      | configs/models/hf_internlm/hf_internlm2_1_8b.py                      |
| hf_internlm2_20b                       | configs/models/hf_internlm/hf_internlm2_20b.py                       |
| hf_internlm2_7b                        | configs/models/hf_internlm/hf_internlm2_7b.py                        |
| hf_internlm2_base_20b                  | configs/models/hf_internlm/hf_internlm2_base_20b.py                  |
| hf_internlm2_base_7b                   | configs/models/hf_internlm/hf_internlm2_base_7b.py                   |
| hf_internlm2_chat_1_8b                 | configs/models/hf_internlm/hf_internlm2_chat_1_8b.py                 |
| hf_internlm2_chat_1_8b_sft             | configs/models/hf_internlm/hf_internlm2_chat_1_8b_sft.py             |
| hf_internlm2_chat_20b                  | configs/models/hf_internlm/hf_internlm2_chat_20b.py                  |
| hf_internlm2_chat_20b_sft              | configs/models/hf_internlm/hf_internlm2_chat_20b_sft.py              |
| hf_internlm2_chat_20b_with_system      | configs/models/hf_internlm/hf_internlm2_chat_20b_with_system.py      |
| hf_internlm2_chat_7b                   | configs/models/hf_internlm/hf_internlm2_chat_7b.py                   |
| hf_internlm2_chat_7b_sft               | configs/models/hf_internlm/hf_internlm2_chat_7b_sft.py               |
| hf_internlm2_chat_7b_with_system       | configs/models/hf_internlm/hf_internlm2_chat_7b_with_system.py       |
| hf_internlm2_chat_math_20b             | configs/models/hf_internlm/hf_internlm2_chat_math_20b.py             |
| hf_internlm2_chat_math_20b_with_system | configs/models/hf_internlm/hf_internlm2_chat_math_20b_with_system.py |
| hf_internlm2_chat_math_7b              | configs/models/hf_internlm/hf_internlm2_chat_math_7b.py              |
| hf_internlm2_chat_math_7b_with_system  | configs/models/hf_internlm/hf_internlm2_chat_math_7b_with_system.py  |
| hf_internlm_20b                        | configs/models/hf_internlm/hf_internlm_20b.py                        |
| hf_internlm_7b                         | configs/models/hf_internlm/hf_internlm_7b.py                         |
| hf_internlm_chat_20b                   | configs/models/hf_internlm/hf_internlm_chat_20b.py                   |
| hf_internlm_chat_7b                    | configs/models/hf_internlm/hf_internlm_chat_7b.py                    |
| hf_internlm_chat_7b_8k                 | configs/models/hf_internlm/hf_internlm_chat_7b_8k.py                 |
| hf_internlm_chat_7b_v1_1               | configs/models/hf_internlm/hf_internlm_chat_7b_v1_1.py               |
| internlm_7b                            | configs/models/internlm/internlm_7b.py                               |
| lmdeploy_internlm2_chat_20b            | configs/models/hf_internlm/lmdeploy_internlm2_chat_20b.py            |
| lmdeploy_internlm2_chat_7b             | configs/models/hf_internlm/lmdeploy_internlm2_chat_7b.py             |
| ms_internlm_chat_7b_8k                 | configs/models/ms_internlm/ms_internlm_chat_7b_8k.py                 |
+----------------------------------------+----------------------------------------------------------------------+

评测模型的数据集如下图所示：

+-------------------------------+-----------------------------------------------------------------+
| Dataset                       | Config Path                                                     |
|-------------------------------+-----------------------------------------------------------------|
| cmmlu_gen                     | configs/datasets/cmmlu/cmmlu_gen.py                             |
| cmmlu_gen_c13365              | configs/datasets/cmmlu/cmmlu_gen_c13365.py                      |
| cmmlu_ppl                     | configs/datasets/cmmlu/cmmlu_ppl.py                             |
| cmmlu_ppl_041cbf              | configs/datasets/cmmlu/cmmlu_ppl_041cbf.py                      |
| cmmlu_ppl_8b9c76              | configs/datasets/cmmlu/cmmlu_ppl_8b9c76.py                      |
| mmlu_clean_ppl                | configs/datasets/mmlu/mmlu_clean_ppl.py                         |
| mmlu_contamination_ppl_810ec6 | configs/datasets/contamination/mmlu_contamination_ppl_810ec6.py |
| mmlu_gen                      | configs/datasets/mmlu/mmlu_gen.py                               |
| mmlu_gen_23a9a9               | configs/datasets/mmlu/mmlu_gen_23a9a9.py                        |
| mmlu_gen_4d595a               | configs/datasets/mmlu/mmlu_gen_4d595a.py                        |
| mmlu_gen_5d1409               | configs/datasets/mmlu/mmlu_gen_5d1409.py                        |
| mmlu_gen_79e572               | configs/datasets/mmlu/mmlu_gen_79e572.py                        |
| mmlu_gen_a484b3               | configs/datasets/mmlu/mmlu_gen_a484b3.py                        |
| mmlu_ppl                      | configs/datasets/mmlu/mmlu_ppl.py                               |
| mmlu_ppl_ac766d               | configs/datasets/mmlu/mmlu_ppl_ac766d.py                        |
| mmlu_zero_shot_gen_47e2c0     | configs/datasets/mmlu/mmlu_zero_shot_gen_47e2c0.py              |
+-------------------------------+-----------------------------------------------------------------+

启动评测 (10% A100 8GB 资源)
确保按照上述步骤正确安装 OpenCompass 并准备好数据集后，可以通过以下命令评测 InternLM2-Chat-1.8B 模型在 mmlu 数据集上的性能。由于 OpenCompass 默认并行启动评估过程，我们可以在第一次运行时以 --debug 模式启动评估，并检查是否存在问题。在 --debug 模式下，任务将按顺序执行，并实时打印输出。
运行以下命令：

pip install protobuf
export MKL_THREADING_LAYER=GNU
python run.py --datasets  mmlu_gen   --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug

评测完成后，将会看到：

07/22 22:45:02 - OpenCompass - INFO - Partitioned into 57 tasks.
07/22 22:45:04 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_college_biology]: {'accuracy': 51.388888888888886}
07/22 22:45:05 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_college_chemistry]: {'accuracy': 34.0}
07/22 22:45:07 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_college_computer_science]: {'accuracy': 41.0}
07/22 22:45:08 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_college_mathematics]: {'accuracy': 32.0}
07/22 22:45:10 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_college_physics]: {'accuracy': 29.411764705882355}
07/22 22:45:11 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_electrical_engineering]: {'accuracy': 44.13793103448276}
07/22 22:45:12 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_astronomy]: {'accuracy': 48.026315789473685}
07/22 22:45:14 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_anatomy]: {'accuracy': 45.925925925925924}
07/22 22:45:15 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_abstract_algebra]: {'accuracy': 31.0}
07/22 22:45:16 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_machine_learning]: {'accuracy': 32.142857142857146}
07/22 22:45:18 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_clinical_knowledge]: {'accuracy': 51.320754716981135}
07/22 22:45:19 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_global_facts]: {'accuracy': 24.0}
07/22 22:45:20 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_management]: {'accuracy': 62.13592233009708}
07/22 22:45:22 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_nutrition]: {'accuracy': 48.36601307189542}
07/22 22:45:23 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_marketing]: {'accuracy': 65.8119658119658}
07/22 22:45:25 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_professional_accounting]: {'accuracy': 35.1063829787234}
07/22 22:45:26 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_high_school_geography]: {'accuracy': 56.060606060606055}
07/22 22:45:27 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_international_law]: {'accuracy': 49.586776859504134}
07/22 22:45:29 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_moral_scenarios]: {'accuracy': 24.46927374301676}
07/22 22:45:30 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_computer_security]: {'accuracy': 63.0}
07/22 22:45:32 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_high_school_microeconomics]: {'accuracy': 48.319327731092436}
07/22 22:45:33 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_professional_law]: {'accuracy': 31.095176010430247}
07/22 22:45:35 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_medical_genetics]: {'accuracy': 54.0}
07/22 22:45:36 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_professional_psychology]: {'accuracy': 42.48366013071895}
07/22 22:45:37 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_jurisprudence]: {'accuracy': 50.0}
07/22 22:45:39 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_world_religions]: {'accuracy': 60.81871345029239}
07/22 22:45:40 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_philosophy]: {'accuracy': 49.19614147909968}
07/22 22:45:41 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_virology]: {'accuracy': 37.34939759036144}
07/22 22:45:43 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_high_school_chemistry]: {'accuracy': 35.960591133004925}
07/22 22:45:44 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_public_relations]: {'accuracy': 53.63636363636364}
07/22 22:45:46 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_high_school_macroeconomics]: {'accuracy': 45.64102564102564}
07/22 22:45:47 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_human_sexuality]: {'accuracy': 54.19847328244275}
07/22 22:45:48 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_elementary_mathematics]: {'accuracy': 29.894179894179896}
07/22 22:45:50 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_high_school_physics]: {'accuracy': 34.437086092715234}
07/22 22:45:51 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_high_school_computer_science]: {'accuracy': 38.0}
07/22 22:45:52 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_high_school_european_history]: {'accuracy': 58.18181818181818}
07/22 22:45:54 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_business_ethics]: {'accuracy': 42.0}
07/22 22:45:55 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_moral_disputes]: {'accuracy': 43.641618497109825}
07/22 22:45:57 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_high_school_statistics]: {'accuracy': 40.27777777777778}
07/22 22:45:58 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_miscellaneous]: {'accuracy': 55.172413793103445}
07/22 22:45:59 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_formal_logic]: {'accuracy': 26.984126984126984}
07/22 22:46:01 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_high_school_government_and_politics]: {'accuracy': 60.62176165803109}
07/22 22:46:02 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_prehistory]: {'accuracy': 46.2962962962963}
07/22 22:46:04 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_security_studies]: {'accuracy': 55.10204081632652}
07/22 22:46:05 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_high_school_biology]: {'accuracy': 56.12903225806451}
07/22 22:46:07 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_logical_fallacies]: {'accuracy': 55.828220858895705}
07/22 22:46:08 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_high_school_world_history]: {'accuracy': 65.40084388185655}
07/22 22:46:10 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_professional_medicine]: {'accuracy': 45.588235294117645}
07/22 22:46:11 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_high_school_mathematics]: {'accuracy': 21.48148148148148}
07/22 22:46:12 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_college_medicine]: {'accuracy': 43.35260115606936}
07/22 22:46:14 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_high_school_us_history]: {'accuracy': 51.9607843137255}
07/22 22:46:15 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_sociology]: {'accuracy': 64.6766169154229}
07/22 22:46:16 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_econometrics]: {'accuracy': 31.57894736842105}
07/22 22:46:18 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_high_school_psychology]: {'accuracy': 65.5045871559633}
07/22 22:46:19 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_human_aging]: {'accuracy': 48.4304932735426}
07/22 22:46:20 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_us_foreign_policy]: {'accuracy': 69.0}
07/22 22:46:22 - OpenCompass - INFO - Task [opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b/lukaemon_mmlu_conceptual_physics]: {'accuracy': 32.340425531914896}
dataset                                            version    metric            mode      opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b
-------------------------------------------------  ---------  ----------------  ------  ---------------------------------------------------------------------------------------
lukaemon_mmlu_college_biology                      caec7d     accuracy          gen                                                                                       51.39
lukaemon_mmlu_college_chemistry                    520aa6     accuracy          gen                                                                                       34
lukaemon_mmlu_college_computer_science             99c216     accuracy          gen                                                                                       41
lukaemon_mmlu_college_mathematics                  678751     accuracy          gen                                                                                       32
lukaemon_mmlu_college_physics                      4f382c     accuracy          gen                                                                                       29.41
lukaemon_mmlu_electrical_engineering               770ce3     accuracy          gen                                                                                       44.14
lukaemon_mmlu_astronomy                            d3ee01     accuracy          gen                                                                                       48.03
lukaemon_mmlu_anatomy                              72183b     accuracy          gen                                                                                       45.93
lukaemon_mmlu_abstract_algebra                     2db373     accuracy          gen                                                                                       31
lukaemon_mmlu_machine_learning                     0283bb     accuracy          gen                                                                                       32.14
lukaemon_mmlu_clinical_knowledge                   cb3218     accuracy          gen                                                                                       51.32
lukaemon_mmlu_global_facts                         ab07b6     accuracy          gen                                                                                       24
lukaemon_mmlu_management                           80876d     accuracy          gen                                                                                       62.14
lukaemon_mmlu_nutrition                            4543bd     accuracy          gen                                                                                       48.37
lukaemon_mmlu_marketing                            7394e3     accuracy          gen                                                                                       65.81
lukaemon_mmlu_professional_accounting              444b7f     accuracy          gen                                                                                       35.11
lukaemon_mmlu_high_school_geography                0780e6     accuracy          gen                                                                                       56.06
lukaemon_mmlu_international_law                    cf3179     accuracy          gen                                                                                       49.59
lukaemon_mmlu_moral_scenarios                      f6dbe2     accuracy          gen                                                                                       24.47
lukaemon_mmlu_computer_security                    ce7550     accuracy          gen                                                                                       63
lukaemon_mmlu_high_school_microeconomics           04d21a     accuracy          gen                                                                                       48.32
lukaemon_mmlu_professional_law                     5f7e6c     accuracy          gen                                                                                       31.1
lukaemon_mmlu_medical_genetics                     881ef5     accuracy          gen                                                                                       54
lukaemon_mmlu_professional_psychology              221a16     accuracy          gen                                                                                       42.48
lukaemon_mmlu_jurisprudence                        001f24     accuracy          gen                                                                                       50
lukaemon_mmlu_world_religions                      232c09     accuracy          gen                                                                                       60.82
lukaemon_mmlu_philosophy                           08042b     accuracy          gen                                                                                       49.2
lukaemon_mmlu_virology                             12e270     accuracy          gen                                                                                       37.35
lukaemon_mmlu_high_school_chemistry                ae8820     accuracy          gen                                                                                       35.96
lukaemon_mmlu_public_relations                     e7d39b     accuracy          gen                                                                                       53.64
lukaemon_mmlu_high_school_macroeconomics           a01685     accuracy          gen                                                                                       45.64
lukaemon_mmlu_human_sexuality                      42407c     accuracy          gen                                                                                       54.2
lukaemon_mmlu_elementary_mathematics               269926     accuracy          gen                                                                                       29.89
lukaemon_mmlu_high_school_physics                  93278f     accuracy          gen                                                                                       34.44
lukaemon_mmlu_high_school_computer_science         9965a5     accuracy          gen                                                                                       38
lukaemon_mmlu_high_school_european_history         eefc90     accuracy          gen                                                                                       58.18
lukaemon_mmlu_business_ethics                      1dec08     accuracy          gen                                                                                       42
lukaemon_mmlu_moral_disputes                       a2173e     accuracy          gen                                                                                       43.64
lukaemon_mmlu_high_school_statistics               8f3f3a     accuracy          gen                                                                                       40.28
lukaemon_mmlu_miscellaneous                        935647     accuracy          gen                                                                                       55.17
lukaemon_mmlu_formal_logic                         cfcb0c     accuracy          gen                                                                                       26.98
lukaemon_mmlu_high_school_government_and_politics  3c52f9     accuracy          gen                                                                                       60.62
lukaemon_mmlu_prehistory                           bbb197     accuracy          gen                                                                                       46.3
lukaemon_mmlu_security_studies                     9b1743     accuracy          gen                                                                                       55.1
lukaemon_mmlu_high_school_biology                  37b125     accuracy          gen                                                                                       56.13
lukaemon_mmlu_logical_fallacies                    9cebb0     accuracy          gen                                                                                       55.83
lukaemon_mmlu_high_school_world_history            048e7e     accuracy          gen                                                                                       65.4
lukaemon_mmlu_professional_medicine                857144     accuracy          gen                                                                                       45.59
lukaemon_mmlu_high_school_mathematics              ed4dc0     accuracy          gen                                                                                       21.48
lukaemon_mmlu_college_medicine                     38709e     accuracy          gen                                                                                       43.35
lukaemon_mmlu_high_school_us_history               8932df     accuracy          gen                                                                                       51.96
lukaemon_mmlu_sociology                            c266a2     accuracy          gen                                                                                       64.68
lukaemon_mmlu_econometrics                         d1134d     accuracy          gen                                                                                       31.58
lukaemon_mmlu_high_school_psychology               7db114     accuracy          gen                                                                                       65.5
lukaemon_mmlu_human_aging                          82a410     accuracy          gen                                                                                       48.43
lukaemon_mmlu_us_foreign_policy                    528cfe     accuracy          gen                                                                                       69
lukaemon_mmlu_conceptual_physics                   63588e     accuracy          gen                                                                                       32.34
mmlu-humanities                                    -          naive_average     gen                                                                                       47.19
mmlu-stem                                          -          naive_average     gen                                                                                       38.98
mmlu-social-science                                -          naive_average     gen                                                                                       53.9
mmlu-other                                         -          naive_average     gen                                                                                       47.13
mmlu                                               -          naive_average     gen                                                                                       45.85
mmlu-weighted                                      -          weighted_average  gen                                                                                       44.3
07/22 22:46:22 - OpenCompass - INFO - write summary to /root/opencompass/outputs/default/20240722_181832/summary/summary_20240722_181832.txt
07/22 22:46:22 - OpenCompass - INFO - write csv to /root/opencompass/outputs/default/20240722_181832/summary/summary_20240722_181832.csv

命令的解析：

python run.py
--datasets mmlu_gen \
--hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b \  # HuggingFace 模型路径
--tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b \  # HuggingFace tokenizer 路径（如果与模型路径相同，可以省略）
--tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True \  # 构建 tokenizer 的参数
--model-kwargs device_map='auto' trust_remote_code=True \  # 构建模型的参数
--max-seq-len 1024 \  # 模型可以接受的最大序列长度
--max-out-len 16 \  # 生成的最大 token 数
--batch-size 2  \  # 批量大小
--num-gpus 1  # 运行模型所需的 GPU 数量
--debug