PG-19:开启语言模型评测新篇章
pg19 项目地址: https://gitcode.com/gh_mirrors/pg/pg19
项目介绍
PG-19是一个开源的语言模型评测基准项目,由DeepMind团队开发并维护。它包含了一系列从Project Gutenberg图书库中提取的书籍,这些书籍均出版于1919年之前。项目不仅提供了书籍的文本数据,还包含了书籍的标题和出版日期等元数据。
项目技术分析
PG-19的核心在于其庞大的数据集。与之前的Billion Word评测基准相比,PG-19的数据量翻了一番,而且文档的平均长度是WikiText长距离语言模型评测基准的20倍。这样的数据规模为长距离语言模型的训练和评测提供了坚实的基础。
PG-19的数据集被划分为训练集、验证集和测试集。在处理文本数据时,项目没有限制词汇量,即没有将罕见词汇映射到UNK(未知)标记,而是以开放词汇库的形式发布数据。项目仅对文本进行了基本的预处理,如去除版权声明文本,将一些冒犯性的歧视性词汇替换为占位符 。
为了比较不同的模型,项目建议继续使用词级困惑度(word-level perplexity)作为评价指标。困惑度是通过计算数据集的总概率(通过任何选定的子词词汇或基于字符的方案)除以令牌数来得到的。
项目及技术应用场景
PG-19的应用场景广泛,主要用于以下几个方面:
- 长距离语言模型评测:PG-19的数据集特别适合用于评测长距离语言模型,因为它包含了大量长篇文本。
- 预训练其他NLP任务:该数据集还可以用于预训练其他需要长距离推理的自然语言处理任务,如LAMBADA或NarrativeQA。
- 避免生产系统中的偏见:由于这些文本具有时代性,项目不建议将其用于训练面向生产系统的通用语言模型,因为这可能会引入历史文本中的固有偏见。
项目特点
PG-19具有以下几个显著特点:
- 数据规模庞大:数据集的规模是之前评测基准的两倍,为模型训练提供了更丰富的数据资源。
- 开放词汇库:不限制词汇量,允许研究人员以更灵活的方式处理文本数据。
- 多样性文本来源:来自Project Gutenberg的书籍涵盖了多种主题和风格,增加了模型的泛化能力。
- 注重公平性:通过对歧视性词汇的处理,项目在数据预处理阶段就考虑到了公平性和包容性。
总结来说,PG-19为语言模型的研究和评测提供了一个宝贵的资源。其开放的数据集和多样性应用场景使其成为了自然语言处理领域不可或缺的一部分。对于希望深入研究长距离语言模型或预训练相关NLP任务的学者和工程师来说,PG-19无疑是一个值得关注的开源项目。