书生大模型实战营基础岛 - OpenCompass 评测 InternLM-1.8B 实践

最新推荐文章于 2024-10-18 00:00:00 发布

J_M_Kirito

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量199

点赞数 4

文章标签： python

本文链接：https://blog.csdn.net/J_M_Kirito/article/details/141106024

版权

任务描述

使用 OpenCompass 评测 internlm2-chat-1.8b 模型在 ceval 数据集上的性能，记录复现过程并截图。

复现步骤

首先创建10%的开发机，配置一下所需环境：

conda create -n opencompass python=3.10
conda activate opencompass
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia -y

# 注意：一定要先 cd /root
cd /root
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .


apt-get update
apt-get install cmake
pip install -r requirements.txt
pip install protobuf

解压评测数据集，查看一下 InternLM 及 C-Eval 相关的配置：

cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip
python tools/list_configs.py internlm ceval

配置如下：

打开 opencompass文件夹下configs/models/hf_internlm/的hf_internlm2_chat_1_8b.py并贴入以下代码：

设置环境变量并开始评测，这个过程巨慢！！需要耐心等待一下。

#环境变量配置
export MKL_SERVICE_FORCE_INTEL=1
#或
export MKL_THREADING_LAYER=GNU
python run.py --datasets ceval_gen --models hf_internlm2_chat_1_8b --debug

评测结束。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

J_M_Kirito

关注关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

书生大模型实战营-基础关-OpenCompass 评测 InternLM-1.8B 实践

greatwind的博客

08-16

202

中评估一个模型通常包括以下几个阶段：配置 -> 推理 -> 评估 -> 可视化。打开 opencompass文件夹下。

书生大模型实战营--L1关卡-OpenCompass 评测 InternLM-1.8B 实践

cgq081616的专栏

07-27

1090

3、再里面的 opencompass/configs/eval_internlm_chat_lmdeploy_apiserver.py增加1.8b调用地址。一、使用 OpenCompass 评测 internlm2-chat-1.8b 模型在 MMLU 数据集上的性能。1、使用lmdeploy部署 internlm2-chat-1.8b模型。2、根据OpenCompass官网教程安装并下载数据集。注意：评测mmlu的时候注释掉其他数据集。4、运行评测脚本---使用API调用。

参与评论您还未登录，请先登录后发表或查看评论

书生大模型实战营闯关 - 基础岛 - OpenCompass 评测 InternLM-1.8B 实践

nachtmusik的博客

08-13

782

本文将进行使用 OpenCompass 来评测 InternLM2 1.8B实践。

书生大模型实战营-基础关卡-6-OpenCompass 评测 InternLM-1.8B 实践

微风❤水墨

08-15

217

列出所有跟 InternLM 及 C-Eval 相关的配置测试过程挺慢的，为了防止超时，测试结果直接导出到日志 08/14 20:33:06 - OpenCompass - INFO - Loading ceval_gen: configs/datasets/ceval/ceval_gen.py 08/14 20:33:07 - OpenCompass - INFO - Loading hf_internlm2_chat_1_8b: configs/models/hf_internlm/h

8.22 书生大模型实战营-基础岛6 - OpenCompass 评测 InternLM-1.8B 实践作业

zjzjsuus的博客

08-23

687

在 OpenCompass 中评估一个模型通常包括以下几个阶段：配置 -> 推理 -> 评估 -> 可视化。配置：这是整个工作流的起点。您需要配置整个评估过程，选择要评估的模型和数据集。此外，还可以选择评估策略、计算后端等，并定义显示结果的方式。推理与评估：在这个阶段，OpenCompass 将会开始对模型和数据集进行并行推理和评估。推理阶段主要是让模型从数据集产生输出，而评估阶段则是衡量这些输出与标准答案的匹配程度。这两个过程会被拆分为多个同时运行的“任务”以提高效率。

书生大模型实战--OpenCompass 评测 InternLM-1.8B 实践

m0_71853180的博客

08-31

794

本次学习，了解了 OpenCompass 的基础用法，分别用命令行方式和配置文件的方式评测InternLM2-Chat-1.8B，展示书生浦语在 `C-Eval` 基准任务上的评估。

书生大模型实战营3期 - 基础岛 - 6 - OpenCompass 评测 InternLM-1.8B 实践

wocsdn111的博客

08-13

284

【代码】书生大模型实战营3期 - 基础岛 - 6 - OpenCompass 评测 InternLM-1.8B 实践。

书生大模型实战营-OpenCompass 评测 InternLM-1.8B 实践

weixin_52114905的博客

08-07

816

PS：如果出现--num-gpus的错误，用错误提示中的tf--num-gpus替换即可。环境配置真的很难绷。创建了三次环境才搞好。

【书生大模型实战】L1-OpenCompass 评测 InternLM-1.8B 实践

cjy_colorful0806的博客

08-04

1009

OpenCompass2.0，又称“司南”，是由上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系。其主要是用于为大语言模型、多模态模型等提供一站式评测服务。开源可复现：提供公平、公开、可复现的大模型评测方案全面的能力维度：五大维度设计，提供 70+ 个数据集约 40 万题的的模型评测方案，全面评估模型能力丰富的模型支持：已支持 20+ HuggingFace 及 API 模型分布式高效评测：一行命令实现任务分割和分布式评测，数小时即可完成千亿模型全量评测。

书生·浦语大模型 - 基础岛 - 第3关书生浦语提示词工程实践

08-10

书生·浦语大模型 - 基础岛 - 第3关书生浦语提示词工程实践

书生大模型实战营第三关浦语提示词工程实践

08-09

书生大模型实战营第三关浦语提示词工程实践

【书生·浦语大模型实战营】学习笔记（一）：全链路开源体系介绍

专注大数据与人工智能技术分享，欢迎私信加群互相学习！

03-31

1755

本文为实战营第一次课程笔记，主要分为两个部分，第一部分从书生·浦语大模型发展、分类、组成进行详细介绍，方便大家理解。第二部分为对 InternLM2技术报告解读，后续系列会继续更新，欢迎大家交流！

LLM InternLM-Chat-7B书生模型、Baichuan-13B-Chat百川模型简单使用

weixin_42357472的博客

07-13

2168

https://github.com/baichuan-inc/Baichuan-13B ## web demo使用代码参考下载。https://huggingface.co/baichuan-inc/Baichuan-13B-Chat ##模型下载。https://github.com/InternLM/InternLM ## web demo使用代码参考下载。https://huggingface.co/internlm/internlm-chat-7b ##模型下载。

【人工智能学习之PaddleOCR快速上手】

Jiagym的博客

10-12

1313

在配置文件中，可以设置组建模型、优化器、损失函数、模型前后处理的参数，PaddleOCR从配置文件中读取到这些参数，进而组建出完整的训练流程，完成模型训练，在需要对模型进行优化的时，可以通过修改配置文件中的参数完成配置，使用简单且方便修改。而 L2 正则化中，添加正则化项的目的在于减少参数平方的总和。准确检测的标准是检测框与标注框的IOU大于某个阈值，正确识别的检测框中的文本与标注的文本相同。如果缺少带标注的数据，或者不想投入研发成本，建议直接调用开放的API，开放的API覆盖了目前比较常见的一些垂类。

pandas中数据子集的获取

weixin_43597208的博客

10-14

454

通常，在pandas模块中实现数据框子集的获取可以使用iloc、loc和ix三种方法，这三种方法既可以对数据行进行筛选，也可以实现变量的筛选，它们的语法可以表示成[rows_select,cols_select]。iloc只能通过行号和列号进行数据的筛选，可以将iloc中的i理解为’integer’，即只能向[rows_select,cols_select]指定整数列表该索引方式与数组的索引方式类似，都是从0开始，可以间隔取号，对于切片仍然无法取到上限。

Python编程实例-猜数字游戏

视觉与物联智能

10-17

每个人都喜欢玩游戏。数字游戏既有趣又对大脑活动有益。在本文中，我们将使用Python创建一个有趣的数字猜谜游戏

计算机毕业设计Python深度学习房价预测房源可视化房源爬虫二手房可视化二手房爬虫递归决策树模型机器学习深度学习大数据毕业设计