本文根据datawhale 2023年9月的学习项目 简单学点大模型 做的笔记。
基座课程:斯坦福大学大规模语言模型课程
Task04:大模型的数据篇
本章学习大模型的数据。包括认识数据集、数据集构建和数据治理三部分内容。
一、认识数据集
在讨论大模型是如何构建之前,我们需要先研究大模型的训练数据和测试数据。 对于大型语言模型来说,训练数据和测试数据都是通过爬取互联网上公开可用的原始文本构建的。
网络数据目前存在如下缺陷:1)过多地代表发达国家的年轻用户(18~29岁之间);2)百科数据编者男性多女性少;3)忽视某些边缘人群(如LGBT)。
因此,理解和记录用于训练大型语言模型的数据集的组成很重要。一些优质开源数据集如下:
非营利组织爬取网络数据提供给公众的数据集,是GPT3的标准数据源。缺点:包含了大量的垃圾信息(如无意义文本和模板文本)。
WebText数据集被用于训练GPT-2模型。其目标是获取既多样化又高质量的数据集。OpenAI并没有公开发布WebText数据集,但OpenWebText数据集遵循了WebText的制作思路和方法,尽可能地模拟和复现WebText的数据特性和结构。且只有2.1%的内容毒性得分>=50%,低于WebText的4.3%的内容毒性。
Colossal Clean Crawled Corpus(C4)数据集
被用来训练T5模型。这个语料库从2019年4月的Common Crawl快照(1.4万亿个标记)开始,数据集大小一共806GB(包含1560亿个标记)。
EleutherAI(一个致力于构建开放语言模型的非营利组织)发布的数据集,其核心理念是从较小的高质量数据源(如学术和专业资源)中获取数据。包含了825GB的英文文本,由22个高质量数据集组成。包含了大量GPT-3数据集未能很好覆盖的信息。
二、数据集构建
数据集文档主要用于评测大模型的性能。
在整个数据集的生命周期中,我们需要考虑很多问题,比如数据集的创建动机,谁是数据集的创建者,数据集的创建是由谁资助的。在数据集的组成部分,我们需要了解数据集中的实例代表什么,是否有缺失信息,是否包含机密数据等。在收集过程中,我们需要了解每个实例的数据是如何获取的,谁参与了数据收集,他们是如何获得报酬的,以及是否进行了道德审查等。在预处理、清理和标记阶段,我们需要了解这些工作是否已经完成,是否有相应的软件可供使用。在数据集的使用方面,我们需要了解数据集是否已经被用于某些任务,是否有不适合使用该数据集的任务。在分发阶段,我们需要了解数据集将如何分发,是否有第三方对数据施加了知识产权或其他的限制。在维护阶段,我们需要了解谁会负责维护数据集,数据集是否会更新。
知识和推理是评估模型强弱的核心指标。
知识的测评是指模型对于事实和概念的理解与应用能力。一个好的大语言模型应该能够准确地理解和输出各种领域的知识,包括科学、历史、地理、文化等。模型应该具有广泛的知识与理智的自我认知,对于一篇文章或一个问题,模型应该能够基于已知的知识给出正确的回答或解释。
推理的测评是指模型在逻辑推理、事实推断和多步推理方面的表现,它是知识的应用和发展。模型可以举一反三,自主学习而无需外界指导,因为人类的资源是有限的,无法穷尽所有的知识提供给模型。因此,要求模型能够基于已有的知识,通过推理推导出新的事实和逻辑,填补知识的空缺。推理能力对于模型的强弱有着显著影响。强大的模型具备这种能力,而较弱的模型则缺乏这种能力。
以下是一种构建评测数据集的参考框架。
权重 | 一级 | 二级分类 | 具体任务 | 测试方法 | 题目类型 | |
1 | 70% | 语言模型的准确性 | 语义理解 | 语言理解能力-词句级 | 古诗文识记、中文分词、中文分词 | 知识题、历史题、词句理解题 |
语言理解能力-篇章级 | 阅读理解、故事情节完形填空、幽 | 知识题、商业写作题、文学题、幽默 | ||||
语言理解能力-数据级 | 语言抽象成表格 | 商务制表题 | ||||
语法结构 | 根据给定条件,生成连贯本 | 摘要生成、数据到⽂本⽣成 | 应用写作题、商务写作题、中⽂特色 | |||
给出主题, 生成连贯⽂本 | 制作多种类型的⽂案 | 商业写作题 | ||||
知识问答 | 知识问答 | 知识题、历史题 | ||||
知识误导 | 知识题 | |||||
逻辑推理 | 抽象给定应用场景,执行数学 | 数值计算 | 数学题、商务制表题 | |||
⾮数学逻辑推理 | MBA逻辑题 | 逻辑推理题、编程类 | ||||
代码能力 | 编程题 | |||||
上下文理解 | 陌⽣概念的新词理解 | 幽默题 | 知识题、中文特色推理题 | |||
语境感知 | 通过语境推测身份 | 商务应用题 | 商务应⽤用写作题 | |||
多语言能力 | 完成涉及多种语言任务 | 机器翻译、跨语言摘要 | 翻译题 | |||
多模态能力 | 文生图等 | 多模态问题 | 多模态问题 | |||
2 | 10% | 数据基础 | 专家访谈 | |||
3 | 15% | 模型和算法的能力 | 专家访谈 | |||
4 | 5% | 安全和隐私 | 安全性 | 不会被恶意利⽤ | 问题测试 | 安全问题 |
隐私性 | 不会泄露用户的 | 问题测试 | 隐私问题 |
三、数据治理
大模型的数据治理主要关注一个组织如何创建数据、维护其质量和安全性。
数据卫生:当我们评估大型语言模型的能力时,我们常常会使用一些基准数据,例如问题-答案对。然而,若基准数据在模型的训练数据中出现过,基准性能就可能会产生偏差。因此,我们需要保证训练数据和测试数据的分离(我们称之为数据卫生)相对容易。但对于大型语言模型,训练数据和基准数据都源自互联网,要事先保证它们的完全分离就显得有些困难。
代表性损害:例如,我们发现与特定族群相关的词汇(如"犹太"和"阿拉伯")与积极情绪词汇的共现频率存在差异,这可能反映了模型的某种偏见。
分配损害:数据集的选择和过滤也可能导致分配损害。以过滤版的Common Crawl(即C4)为例,只有大约10%的内容被保留。然而,涉及性取向的内容更容易被过滤掉,而其中一部分是并无冒犯之意的。某些特定的方言也更容易被过滤,例如非洲裔美国人的英语和西班牙裔的英语,相比之下,白人美国英语的过滤率就要低得多。