最全高质量大模型 -评估基准数据集（不定期更新）

DatasetQuest

于 2024-09-16 20:02:36 发布

阅读量1.2k

点赞数 7

文章标签：语言模型

本文链接：https://blog.csdn.net/u011559552/article/details/142306270

版权

评估基准是推动人工智能领域技术进步和应用落地的关键工具，通过这些基准，我们可以更全面地理解LLMs的能力，并指导未来的研究和实践。

评估基准，是一套衡量标准，就像老师用考试来检查学生学得怎么样。在大模型的世界里，这些标准就是用来衡量这些电脑大脑在处理语言、图像或者其他任务时的表现。

评估基准：

1、性能衡量：

评估基准提供了一套标准化的测试，来衡量LLMs在特定任务上的性能，如语言理解、文本生成等等。

2、模型比较：

通过评估基准，研究人员可以比较不同LLMs的性能，识别出哪些模型在特定任务上表现更优。

3、模型优化：

评估基准的结果可以反馈给模型开发者，帮助他们优化模型结构和训练过程。

数据集：READOC|文档结构化提取数据集|评估基准数据集

创建时间：2024-09-08
链接地址：READOC|文档结构化提取数据集|评估基准数据集
数据集介绍：READOC数据集是由中国科学院软件研究所和中国信息处理实验室创建的一个统一基准，旨在评估真实文档结构化提取系统。该数据集包含2233个从arXiv和GitHub收集的多样化真实世界文档，涵盖了多种类型、年份和主题。数据集的创建过程包括自动构建PDF-Markdown对，并开发了一个包含标准化、分段和评分模块的评估套件。READOC数据集主要应用于文档结构化提取领域，旨在解决现有评估方法的碎片化和不现实性问题，推动该领域的进一步发展。

数据集：GMAI-MMBench|医疗AI数据集|评估基准数据集

创建时间：2024-08-07
链接地址：GMAI-MMBench|医疗AI数据集|评估基准数据集
数据集介绍：GMAI-MMBench是由上海人工智能实验室等机构创建的综合性医疗AI评估基准，包含285个高质量数据集，覆盖39种医疗图像模态和18个临床任务。数据集内容丰富，包括2D检测、分类和2D/3D分割等多种任务，数据来源于全球各地的公共和医院资源。创建过程中，数据集经过严格筛选和标准化处理，确保了数据的多样性和临床相关性。该数据集主要用于评估和提升大型视觉语言模型在医疗领域的应用，特别是在疾病诊断和治疗方面的辅助能力。

数据集：DreamBench++ 图像自动评估基准数据集|图像评估数据集|人工智能数据集

创建时间：2024-07-09
链接地址：DreamBench++ 图像自动评估基准数据集|图像评估数据集|人工智能数据集
数据集介绍：DreamBench++ 是一个由清华大学、西安交通大学、伊利诺伊厄巴纳-香槟分校、中科院、旷视的研究人员于 2024 年共同推出的新基准，旨在解决个性化图像生成技术评估中存在的问题。它通过引入支持多模态的 GPT-4o，实现了与人类偏好的深度对齐和自动化评估，并推出了一个更为全面和多元化的数据集。

数据集：UBENCH|语言模型评估数据集|基准测试数据集

创建时间：2024-06-19
链接地址：UBENCH|语言模型评估数据集|基准测试数据集
数据集介绍：UBENCH是由南开大学软件学院创建的一个综合基准，用于评估大型语言模型（LLMs）的可靠性。该数据集包含3978个多选题，覆盖知识、语言、理解和推理四个主要领域，旨在通过这些题目评估LLMs在不同任务中的表现。UBENCH的数据来源于多个公开数据集，经过特殊处理和严格的质量控制，以确保评估的准确性。该数据集适用于广泛的开放源和闭源模型，特别强调高效的推理和可扩展性。UBENCH的应用领域包括但不限于模型评估和改进，旨在解决LLMs在实际应用中的不确定性和可靠性问题。

数据集：DeepFaceGen|人脸伪造检测数据集|评估基准数据集

创建时间：2024-06-13
发布机构：浙江大学
链接地址：DeepFaceGen|人脸伪造检测数据集|评估基准数据集
数据集介绍：DeepFaceGen是由浙江大学开发的一个大规模人脸伪造检测评估基准。该数据集包含463,583张真实人脸图像和313,407个真实视频，以及350,264张伪造图像和423,548个伪造视频，这些伪造样本使用了34种主流的人脸生成技术。在构建过程中，DeepFaceGen考虑了内容多样性、种族公平性和全面的标签可用性，确保了其多功能性和便利性。该数据集主要用于评估和分析现有面部伪造检测技术，旨在推动面部伪造检测技术的发展，解决由AI生成内容技术引发的真实性验证难题。

数据集：m-a-p/CHC-Bench|中文理解评估数据集|多学科基准数据集

创建时间：2024-04-08
链接地址：m-a-p/CHC-Bench|中文理解评估数据集|多学科基准数据集
数据集介绍：CHC-Bench是一个精心挑选的多学科中文硬案例基准，用于评估模型在理解和遵循中文指令方面的能力。数据集包含来自多个来源的问题，涵盖写作、人文历史、科学、数学、阅读理解、角色扮演等多个类别，并特别关注中文理解的硬案例，如中文发音和古代中文语言理解等。评估方法综合考虑了响应的准确性、有用性、相关性、深度、创造性和详细程度等多个维度。

数据集：FETV|文本到视频生成数据集|评估基准数据集

创建时间：2024-03-29
链接地址：FETV|文本到视频生成数据集|评估基准数据集
数据集介绍：FETV是开放域文本到视频生成的细粒度评估基准

数据集：中文生成式聊天评估基准(CGCE)|自然语言生成数据集|聊天模型评估数据集

创建时间：2023-05-24
链接地址：中文生成式聊天评估基准(CGCE)|自然语言生成数据集|聊天模型评估数据集
数据集介绍：中文生成式聊天评估基准(CGCE)是由度小满创建的一个专注于中文生成式聊天模型的评估数据集。该数据集包含350个问题，分为200个通用领域问题和150个金融领域专业问题。通用领域问题涵盖数学计算、场景写作、逻辑推理等13个维度，而金融领域则涉及金融术语理解、市场评论、数据分析等多个专业方面。数据集通过人工评分，评估模型的准确性、连贯性、表达清晰度和完整性。CGCE旨在为研究人员提供一个标准化的评估框架，以评估和比较中文生成式聊天模型的性能，推动自然语言生成(NLG)领域的研究进展。

一、自然语言处理（NLP）：

数据集：nyu-mll/glue|自然语言处理数据集|语言理解数据集

更新时间：2024-01-30
发布机构：nyu-mll
链接地址：nyu-mll/glue|自然语言处理数据集|语言理解数据集
数据集介绍：GLUE（通用语言理解评估基准）是一个集合了多种资源的数据集，用于训练、评估和分析自然语言理解系统。它涵盖了多个任务，包括文本分类、自然语言推理、语义相似性评分等，每个任务都有详细的数据集结构和评估标准。GLUE通过多个子任务来全面评估模型的语言理解能力，并提供了一个Leaderboard来展示不同模型的性能。

数据集：rajpurkar/squad|自然语言处理数据集|阅读理解数据集

更新时间：2024-03-04
链接地址：SQuad|自然语言处理数据集|阅读理解数据集
数据集介绍：斯坦福问答数据集（SQuAD）是一个阅读理解数据集，包含由众包工作者针对一组维基百科文章提出的问题，每个问题的答案是相应阅读文章中的文本段落，或者问题可能无法回答。SQuAD 1.1包含超过100,000个问题-答案对，涵盖500多篇文章。该数据集支持问答任务，是单语的，仅包含英语内容。数据集根据CC BY-SA 4.0许可发布，由众包和发现语言创建者共同策划。

数据集：SummEval, Newsroom|文本摘要数据集|自动评估数据集

创建时间：2023-05-11
链接地址：SummEval, Newsroom|文本摘要数据集|自动评估数据集
数据集介绍：SummEval数据集包含基于人类和自动指标的评分，包括人类对连贯性、一致性、流畅性和相关性的评分，以及基于预训练语言模型的困惑度分数和各种自动评估指标如BLEU、ROUGE和BERTScore等。Newsroom数据集没有伴随的参考真相，因此使用源文本作为参考，用于评估基于参考的或接近无参考的指标。

二、计算机视觉：

数据集：taesiri/imagenet-hard|图像分类数据集|ImageNet数据集

更新时间：2023-06-16
链接地址：taesiri/imagenet-hard|图像分类数据集|ImageNet数据集
数据集介绍：ImageNet-Hard是一个包含10,980张图像的基准数据集，这些图像从多个ImageNet相关数据集中收集而来，旨在挑战当前最先进的视觉模型。数据集的特点是，简单的图像放大无法有效提高模型的分类准确性，即使是如CLIP-ViT-L/14@336px这样的先进模型，其准确率也仅为2.02%。数据集提供了详细的分类标签映射和数据实例的结构描述，包括图像、标签、来源和英文标签等字段。

数据集：COCO数据集|图像识别数据集|计算机视觉数据集

创建时间：2018-09-13
链接地址：COCO数据集|图像识别数据集|计算机视觉数据集
数据集介绍：COCO数据集，全称Common Objects in COntext，是微软团队提供的一个用于图像识别的大型数据集。它包含了80个对象类别和多种场景类型的图像，通过在Flickr上搜索并使用Amazon Mechanical Turk进行数据收集。数据集分为训练、验证和测试集，并提供了三种标注类型：目标实例、目标上的关键点和看图说话，所有数据均使用JSON文件存储。

数据集：pascal-voc|目标检测数据集|语义分割数据集

链接地址：pascal-voc|目标检测数据集|语义分割数据集
数据集介绍：视觉对象类挑战，包含图像分类、对象检测和分割任务。

三、语音识别：

数据集：gilkeyio/librispeech-alignments

数据集地址：gilkeyio/librispeech-alignments｜用于研究的大规模读英语语音数据集

数据集介绍：Librispeech Alignments是一个包含1000小时16kHz读英语语音的数据集，来源于LibriVox项目的英语有声书。数据集包括多个子集，用于训练和评估自动语音识别（ASR）系统。数据集特征包括说话人性别、子集类型、唯一ID、音频文件、转录文本、单词和音素的开始和结束时间。数据集的标注是通过Montreal Forced Aligner自动生成的，用于生成单词和音素级别的对齐。

数据集：SMS-WSJ (Spatialized Multi-Speaker Wall Street Journal)|语音识别数据集

数据集地址：SMS-WSJ (Spatialized Multi-Speaker Wall Street Journal)|语音识别数据集
数据集介绍：Spatialized Multi-Speaker Wall Street Journal (SMS-WSJ) 由从 WSJ 数据库中提取的人工混合语音组成，但与早期的数据库不同，该数据库考虑了所有 WSJ0+1 话语，并严格区分训练、验证中存在的说话者集和测试集。