Datasets for Large Language Models: A Comprehensive Survey

UnknownBody

已于 2024-05-08 15:02:57 修改

阅读量350

点赞数

CC 4.0 BY-SA版权

分类专栏： Survey Paper LLM Daily 文章标签：语言模型人工智能自然语言处理

于 2024-03-17 12:12:28 首次发布

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/136779525

LLM Daily 同时被 3 个专栏收录

1745 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Survey Paper

277 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM 日更

828 篇文章

已下架不支持订阅

本文深入探讨了大型语言模型（LLM）数据集，包括预训练语料库、指令微调数据集、偏好数据集和评估数据集。调查涵盖了444个数据集，涉及8种语言和32个领域，总计超过774.5 TB的预训练数据和7亿个实例。研究突出了数据集在LLM发展中关键作用，同时指出了当前挑战和未来发展方向，如数据多样性和质量评估。

本文是LLM系列文章，针对《Datasets for Large Language Models: A Comprehensive Survey》的翻译。

摘要

本文对大型语言模型（LLM）数据集进行了探索，这些数据集在LLM的显著进步中发挥着至关重要的作用。数据集作为基础基础设施，类似于支撑和培育LLM发展的根系统。因此，对这些数据集的检查成为研究中的一个关键课题。为了解决LLM数据集目前缺乏全面概述和彻底分析的问题，并深入了解其现状和未来趋势，本调查从五个角度对LLM数据集中的基本方面进行了整合和分类：（1）预训练语料库；（2）指令微调数据集；（3）偏好数据集；（4）评估数据集；（5）传统的自然语言处理（NLP）数据集。该调查揭示了当前的挑战，并指出了未来调查的潜在途径。此外，还提供了对现有可用数据集资源的全面审查，包括444个数据集的统计数据，涵盖8个语言类别和32个领域。来自20个维度的信息被纳入数据集统计。所调查的预训练语料库的总数据量超过774.5 TB，其他数据集的实例数超过700M。我们的目标是展示LLM文本数据集的整个面貌，为该领域的研究人员提供全面的参考，并为未来的研究做出贡献。相关资源可访问：https://github.com/lmmlzn/Awesome-LLMs-Datasets.

1 引言

随着ChatGPT的发布，在短短几个月内，大型语言模型（LLM）引起了越来越多的研究关注，成为研究热点。各种LLM已经相继开源，参数大小从几十亿到一千多亿不等。例子包括LLaMA、Phi、ChatGLM、QWen、Baichuan等。相当多的工作涉及对基本模型的微调，从而产生性能良好的通用会话模型或特定领域模型。从人的反馈中强化学习（R