CJEval:一个基于中国初中考试的多样化考试问题数据集

DatasetQuest

于 2024-09-27 17:30:52 发布

阅读量558

点赞数 16

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011559552/article/details/142598760

版权

2024-09-26，由腾讯YouTu Lab和北京大学联合发布的CJEval，是一个基于中国初中生考试数据的评估基准，用于测试和分析大型语言模型（LLMs）在教育任务中的表现，从而提高在线教育平台的智能化水平。

一、背景：

在线教育平台已经显著改变了教育资源的传播，通过提供动态的数字化基础设施。随着这种变革的进一步增强，大型语言模型（LLMs）的出现，如ChatGPT和Llama，标志着人工智能领域的一个巨大飞跃，展现了对人类语言的卓越掌握。然而，现有的学术基准对于现实世界工业场景的指导有限，因为教育应用需要的不仅仅是回答测试问题。

目前遇到的困难和挑战:

1. 教育应用的挑战：

教育应用需要理解学生遇到的具体问题，并应用专门的教学知识来提供有效的解决方案。
需要在语言理解和领域专业知识之间进行复杂的交互，以确保教育干预既准确又符合教学要求。

2. 现有基准的局限性：

现有的数据集主要关注模型在回答考试问题上的准确性。
这些基准主要关注单一类型的问题：多项选择题，这可能无法全面反映模型在教育评估中的综合能力。

二、让我们一起看一下CJEval

CJEval（中国初中生考试评估的基准）是一个新提出的任务，目的是通过使用真实的中国初中考试问题来评估大型语言模型。

数据集，包括26,136个样本，涵盖十个学科的四个应用级教育任务。

数据集的构建：

1、样本收集：收集26,136个样本，覆盖十个学科的考试问题。

2、详细注释：每个样本包括问题和答案，以及详细的注释，如问题类型、难度级别、知识概念和答案解释。

3、任务设计：设计了四个核心任务：知识概念标注、问题难度预测、问题回答和问题生成。

4、数据集分割：训练集：20820个问题，验证集：2106个问题、测试集：3210个问题。总计26136个问题。

数据集特点:

1、多任务：同时提供四个核心任务，覆盖不同类型的教育评估。

2、高质量：通过人工筛选和评估，确保样本的质量和相关性。

3、多学科：覆盖十个不同的学科，包括数学、物理、化学、生物、地理、历史、科学、IT等。

No.S: 表示每种问题类型下涵盖的科目数量。

No.Q: 表示每种问题类型的总问题数量。

Avg.Q Tokens: 表示每种问题类型的平均问题长度（以词元为单位）。

Avg.A Tokens: 表示每种问题类型的平均答案长度（以词元为单位）。

Avg.AE Tokens: 表示每种问题类型的平均答案解释长度（以词元为单位）。

Avg.No.KC: 表示每种问题类型平均每题涉及的知识概念数量。

三、让我们一起展望CJEval应用

应用场景：在线教育平台

比如，我是一个在线教育平台的开发者。

我的工作中需要确保平台的教学内容既准确又符合教学要求。但这个任务非常复杂，需要理解学生的具体问题，并提供有效的解决方案。

当我使用了 CJEval ，它可真是帮了我的大忙！

我告诉它：“嘿，给我评估一下这个数学问题，要确保它符合初中教学大纲，并且难度适中。” 没过多久，它就给了我一个详细的评估报告。我一看，它不仅评估了问题的知识概念，还预测了难度级别，并且给出了答案解释。

我指着报告说：“你看，这个问题涉及到线性方程的知识概念，难度级别是容易的。”

然后，我又指向另一个问题：“这里呢，是一个中等难度的物理问题，涉及到力学的知识概念。”

最后，我给它一个开放式问题：“给我生成一个关于中国历史的分析问题，要求难度较高。” 它生成了一个关于历史事件影响的问题，需要学生进行深入分析和讨论。

不得不说，CJEval可真是个宝贝，它让教育内容的评估变得简单明了，让我的工作轻松多了。而且啊，看到学生因为理解了问题而变得更加自信，我这个做教育的也感到特别自豪和满足。

让我们一起打开数据集地址：CJEval|教育评估数据集|大型语言模型数据集

关注

16
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。