司南评测集社区 5 月上新一览

司南评测集社区 CompassHub 作为司南评测体系的重要组成部分,旨在打造创新性的基准测试资源导航社区,提供丰富、及时、专业的评测集信息,帮助研究人员和行业人士快速搜索和使用评测集。

2025 年 5 月,司南评测集社区新收录了 24 个评测基准,覆盖多模态、智能体、数学、推理、医学等方向,以下为部分新增评测集的介绍,欢迎大家下载使用。

司南评测集社区链接:

https://hub.opencompass.org.cn/home

MedArabiQ

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

发布单位:

New York University

发布时间:

2025-05-06

评测集简介:

MedArabiQ 是一个用于评估阿拉伯语医学任务的基准测试,包含七个任务,涵盖多种问题格式:多项选择题、填空题(有选项和无选项)、患者-医生问答对。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/MedArabiQ

EWMBench

在这里插入图片描述

发布单位:

Agibot**,etc.**

发布时间:

2025-05-14

评测集简介:

EWMBench 是一个用于评估具身世界模型的基准测试,涵盖场景一致性、运动正确性和语义对齐等方面的任务。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/EWMBench

PSOCR

在这里插入图片描述

发布单位:

Zirak AI

发布时间:

2025-05-15

评测集简介:

PsOCR 是一个专为低资源普什图语光学字符识别(OCR)任务构建的大规模合成数据集,包含 100 万张合成图像,覆盖词级、行级和文档级三种标注形式。数据集涵盖 1000 种独特字体风格,并在颜色、图像尺寸、文本布局等方面展现出丰富多样的变化。此外,PsOCR 提供了一个 公开可用的 OCR 基准测试,包含 1 万张图像,便于对低资源普什图语OCR系统进行系统性评估和比较。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/PashtoOCR

MAVOS-DD

在这里插入图片描述

发布单位:

University of Bucharest,etc

发布时间:

2025-05-16

评测集简介:

MAVOS-DD 是一个多语言音视频开放集深度伪造检测基准,包含超过 250 小时的真实与伪造视频,覆盖八种语言,其中 60% 的数据为生成数据。

评测集社区链接

https://hub.opencompass.org.cn/dataset-detail/MAVOS-DD

CleanPatrick

在这里插入图片描述

发布单位:

University of Basel,etc

发布时间:

2025-05-16

评测集简介:

CleanPatrick 是一个专为图像领域数据清洗设计的大规模基准测试,基于 Fitzpatrick17k 皮肤病学数据集构建。该数据集旨在评估模型检测三类常见数据质量问题的能力:偏离主题的样本、近似重复样本以及标签错误。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/CleanPatrick

STARK_10k

在这里插入图片描述

发布单位:

University of California, Los Angeles

发布时间:

2025-05-16

评测集简介:

STARK 是一个全面的基准测试套件,旨在系统评估大语言模型和大推理模型在时空推理任务中的表现,特别是在网络物理系统中的应用,如机器人、自动驾驶和智能城市基础设施。该基准包含 26 种不同的时空任务,涵盖状态估计、时空关系推理和世界知识感知推理三个层次。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/STARK_10k

Massive-STEPS

在这里插入图片描述

发布单位:

University of New South Wales

发布时间:

2025-05-16

评测集简介:

Massive-STEPS 是一个大规模的语义轨迹数据集,旨在理解和预测兴趣点(POI)签到行为。该数据集基于 Semantic Trails 数据集构建,覆盖 12 个全球不同地区的城市,包含 2012年-2013年和2017年-2018年 两个时间段的签到数据,提供了更现代和多样化的 POI 签到信息。Massive-STEPS 不仅丰富了签到数据的语义信息,还通过与 Foursquare Open Source Places 数据集对齐,增加了 POI 的地理坐标、名称和地址等元数据。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/Massive-STEPS

IQBench

在这里插入图片描述

发布单位:

Harvard Medical School, USA Uppsala University,etc

发布时间:

2025-05-17

评测集简介:

IQBench 是一项新颖的基准测试,旨在通过标准化的视觉智商测试评估视觉语言模型的流体智力。该基准包含 500 道精心挑选的问题,全面覆盖智商测试的核心领域,包括模式识别、类比推理、视觉算术、空间理解、抽象与具体推理、数字与图形序列推理、字谜以及三段论语言推理。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/IQBench

TinyQA

在这里插入图片描述

发布单位:

Comet ML

发布时间:

2025-05-17

评测集简介:

TinyQA 是一个基准测试套件,旨在通过自然语言问答对评估大型语言模型的推理能力。该基准测试专注于评估各种推理技能,包括因果推理、逻辑推理和常识推理。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/tiny_qa_benchmark_pp

LLM-BabyBench

在这里插入图片描述

发布单位:

MBZUAI, Abu Dhabi, UAE

发布时间:

2025-05-17

评测集简介:

LLM-BabyBench 旨在评估大语言模型在基于环境的规划和推理任务上的表现。该基准测试建立在程序化生成的 BabyAI 网格世界的文本适配版本之上,评估大语言模型在交互式环境约束下进行规划和推理的能力。该基准包含三个方面:(1)预测动作对环境状态的影响(2)生成低级动作序列以实现指定的子目标(3)将高级任务分解为连贯的子目标序列。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/LLM-BabyBench

HARDMath2

在这里插入图片描述

发布单位:

Harvard University

发布时间:

2025-05-17

评测集简介:

HARDMath2 是由哈佛大学研究生课程的学生创建的一项应用数学基准测试,包含 211 道原创问题,涵盖边界层分析、WKB 方法、非线性偏微分方程的渐近解以及振荡积分的渐近性等核心主题。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/HARDMath2

MMS-VPR

在这里插入图片描述

发布单位:

University of Auckland & Hunan University

发布时间:

2025-05-18

评测集简介:

MMS-VPR 是一个大规模多模态数据集,用于行人区域的街道级地点识别。该数据集包含来自中国成都 207 个地点的 78,575 张图像和 2,512 个视频,具有丰富的元数据和空间图结构。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/MMS-VPR

CSTS

发布单位:

University of Bristol,University of Nanjing,etc

发布时间:

2025-05-20

评测集简介:

CSTS 是一个综合性的合成基准数据集,专为评估时间序列数据中的相关结构发现而设计。该数据集系统地模拟了三个不同时间序列变量之间的已知相关结构,并可用于检验这些相关结构在分布偏移、稀疏化和降采样等条件下的表现和变化。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/CSTS

CLEVER

在这里插入图片描述

发布单位:

University of Texas at Austin,etc

发布时间:

2025-05-20

评测集简介:

CLEVER 是一个用于 Lean 4 中端到端代码生成和形式化验证的基准测试套件,改编自 HumanEval 数据集。其目标是超越基于测试用例的评估方式,要求模型不仅生成实现代码,还要生成形式化规范和证明——所有这些都可以通过 Lean 的类型检查器进行验证。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/CLEVER

MedBrowseComp

在这里插入图片描述

发布单位:

Harvard,etc

发布时间:

2025-05-20

评测集简介:

MedBrowseComp 是一个系统性测试智能体从实时、特定领域知识库中可靠检索和综合多跳医学事实能力的基准测试。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/MedBrowseComp

TransBench

在这里插入图片描述

发布单位:

Alibaba International Digital Commerce, Beijing Language and Culture University

发布时间:

2025-05-20

评测集简介:

TransBench 是一个面向行业的综合性多语言翻译评估系统,专为工业应用而设计。它通过与通用翻译标准、垂直行业规范和文化本地化要求相一致的精心策划的数据集,量化不同行业和语言环境中的翻译模型性能。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/TransBench

AudioJailbreak

在这里插入图片描述

发布单位:

mbzuai

发布时间:

2025-05-21

评测集简介:

AudioJailbreak 是一个专门设计用于评估音频语言模型安全性的基准框架。该项目通过各种音频扰动技术测试模型对恶意请求的防御能力。

评测集社区链接:https://hub.opencompass.org.cn/dataset-detail/AudioJailbreak

MIRACL-VISION

在这里插入图片描述

发布单位:

NVIDIA

发布时间:

2025-05-22

评测集简介:

MIRACL-VISION 是一个涵盖 18 种不同语言的多语言视觉检索数据集。它是 MIRACL 的扩展版本,其包含用户问题、维基百科文章的图像以及标注。数据集中共有 7,898 个问题和 338,734 张图像。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/MIRACL-VISION

MiniLongBench

在这里插入图片描述

发布单位:

MilkThink-Lab

发布时间:

2025-05-26

评测集简介:

MiniLongBench 是一个低成本的基准,用于评估 LLM 的长期上下文理解能力,具有紧凑而多样化的测试集,仅包含 237 个样本,涵盖 6 个主要任务类别和 21 个不同的任务。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/MiniLongBench

GitGoodBench Lite

在这里插入图片描述

发布单位:

JetBrains

发布时间:

2025-05-28

评测集简介:

GitGoodBench Lite 是一个用于评估 AI 智能体在解决各类 Git 任务中的性能的数据集。该数据集的样本均匀分布于三种编程语言(Python、Java 和 Kotlin)以及两种样本类型(合并冲突解决和文件提交语法),其中每种编程语言和样本类型各包含 150 个样本。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/GitGoodBench

司南评测集社区 5 月上新介绍就到这里了,欢迎扫描下放二维码加入司南评测集社区交流群,第一时间获取最新评测集资讯。

ch Lite

[外链图片转存中…(img-EZFE9vEz-1749091215890)]

发布单位:

JetBrains

发布时间:

2025-05-28

评测集简介:

GitGoodBench Lite 是一个用于评估 AI 智能体在解决各类 Git 任务中的性能的数据集。该数据集的样本均匀分布于三种编程语言(Python、Java 和 Kotlin)以及两种样本类型(合并冲突解决和文件提交语法),其中每种编程语言和样本类型各包含 150 个样本。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/GitGoodBench

司南评测集社区 5 月上新介绍就到这里了!

### 使用本地大规模语言模型司南进行评测 #### 配置环境与准备 为了使用本地部署的大规模语言模型(如司南)进行评估,需先完成必要的配置工作。这涉及安装所需软件包以及设置运行环境。确保已准备好所需的硬件资源和支持的计算平台。 ```bash pip install opencompass # 安装OpenCompass库 ``` #### 创建评估项目结构 建立合理的文件夹架构来管理不同的组件,包括但不限于: - `config/`:存储所有的配置文件。 - `datasets/`:放置待测的数据集。 - `models/`:存放预训练好的模型权重或其他必要参数。 - `results/`:保存最终生成的结果文档。 #### 编写配置文件 编写JSON或YAML格式的配置文件以指定具体的评估选项。此步骤决定了哪些模型将被测试、采用何种数据源以及期望得到怎样的输出形式等细节[^3]。 ```json { "model": { "name": "snnan", "path": "./models/snnan" }, "dataset": [ {"type": "math", "file": "./datasets/math_problems.json"}, {"type": "coding", "file": "./datasets/code_samples.py"} ], "output_dir": "./results/" } ``` #### 执行推理与评估流程 通过命令行工具启动评估进程,此时系统会依据之前设定的内容自动处理各项任务,并行地对选定的模型和数据集实施推理操作,随后进入正式的评分环节。 ```bash opencompass evaluate --config ./config/evaluation_config.yaml ``` #### 结果分析与展示 当所有运算结束后,程序自动生成易于解析的日志记录及统计图表,帮助直观理解各方面的表现情况。除了基本的文字描述外,还可能附带图形化的总结材料以便更清晰地传达信息。 ```python import pandas as pd df = pd.read_csv('./results/performance_report.csv') print(df.head()) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值