DateWhale简单学点大模型课程组队学习打卡task04--kk

最新推荐文章于 2024-10-10 15:27:46 发布

机枪射手黑芝麻

最新推荐文章于 2024-10-10 15:27:46 发布

阅读量62

点赞数

文章标签：学习人工智能机器学习深度学习 nlp 文心一言神经网络

本文链接：https://blog.csdn.net/qq_61783670/article/details/132876559

版权

费曼说：学习一件事情最好的方式是做它的老师，这也是写这篇博文的目的，写这篇博文，即便有其他原因，但更多的还是写给自己，话不多说，让我们开始进入大模型吧！

task4主要讲的是大模型的数据篇，按照这篇课程的设计来说，已经进入到了“剥开洋葱的第⼀层”这个阶段，这不由得让我们再次地想起机器学习的四个要素：数据、模型、目标函数、优化。

数据是最开始的部分，也是关乎机器学习最后成效的影响显著的部分。可以这样来说，真实可靠的数据是模型训练需要成功必不可少的一部分。当然，获取到数据后、我们还会对数据进行清理、标注、变换etc.

5.1 大语言模型背后的数据

大模型所需的数据有着海量的显卡资源，对应着海量的数据，但是，作为机器学习的学习者，我们都知道，数据是需要经过各种处理，去掉其中错误的数据，进行数据的增强等等才能实现从生数据（raw data）到数据集（dataset）可以为机器学习使用的输入。

但是，语言模型的自监督学习（self-supervised learning）机制能够很好的避免复杂的数据预处理工作,包括数据的标注（这是相对成本较高的工作）等，下面是自监督学习的机制（下方是链接：Self-supervised Learning (ntu.edu.tw)）：

也就是说，只需要最原始的语句（但同样也需要高质量，但获取相对更加容易），我们就可以通过自监督学习的机制，来训练大语言模型。这种机制是成功的，原因在于与社会的现状相契合——语言，作为人类产生的大规模的数据，本身就带有一定的规律性，而语言模型最基础架构的BERT能够通过mask填空机制，能够对这种海量的数据进行应用，最终达到了从量变到质变的伟大跨越。

大语言模型在今天取得的胜利，不仅仅是在于学术界的进步，而是在于学术界与社会联动所产生的胜利，输入开放，并且不会因为数据过多而拥挤的机制，给了大模型从各种来源的语言数据学习的机会，开放是可贵的。

下面就是一些大语言模型所用到的数据集的分类：

5.1.1 WebText和OpenWebText数据集

WebText数据集是被用作来训练GPT-2的数据集，与Common Crawl对比，它的特性是既保持了较高的质量，同时又能保证数据集的多样性。

5.1.2 Colossal Clean Crawled Corpus （C4）

训练T5模型所用到的数据。经过Dogge等人的分析，数据主要包括

元数据：来源是话语数据。

包含的数据：由机器或⼈类创作的，社会偏见，数据污染。

排除的数据：医疗或健康数据，人口身份。

也就是说，这是将身份和信息数据经过筛选后所得到的数据集

5.1.3 Benchmark的数据污染问题

简而言之，就是在大模型测试中不能保证训练数据和测试集的完全清洁，没有污染

同时研究人员发现，这一现象并不是由于数据集托管在云端导致的，这向我们展示了数据泄露的不存在性。

其他：

5.1.4 GPT-3的数据集

5.1.5 The Pile数据集

5.2 数据集文档

1.对于一个文档，我们首先会想到它作为文档存在的意义在于何方，数据集文档存在的主要目的是：帮助数据集的创建者反思他们对数据集的决策；另一方面，数据文档可以让数据集的使用者了解到数据集的相关的背景信息，有益于数据集使用者的决策。

5.3 数据生态

目前，我们主要关注现有大型语言模型数据集的分析和文档记录。然而，实际上，数据是一个广泛的概念，可以从许多其他角度进行研究。

在数据管理方面，机器学习研究中通常认为数据集是固定的对象，收集起来之后直接投入到训练算法中。然而，在数据库领域，有一个整个子领域正在思考数据是如何产生和使用的生态系统，这在工业领域特别相关。

基础模型报告的数据部分讨论了一些问题。数据治理主要关注一个组织如何创建数据、维护其质量和安全性。Hugging Face发起的BigScience项目旨在收集一个大型多语种数据集并训练一个大型语言模型。BigScience的数据治理工作组正在开发一个框架，以负责任地策划高质量的数据源，而不是无差别地爬取网页。

数据尊严是一个源自微软和RadicalxChange的概念，试图思考数据的本质。人们创造数据，由于人们生活在社会环境中，数据也并不仅仅是个体的财产，而是群体的财产，例如电子邮件、遗传数据。在个体层面上，数据没有价值，但在集体层面上，它具有巨大的价值。相关的框架Data Shapley试图在机器学习的背景下给定数据点赋予价值。目前的情况是，人们免费放弃他们的数据，大公司从中获取大量的价值和权力。例如，Alice和Bob都是作家。Alice免费提供写作示例，这可以被用来训练可以替代Bob的语言模型。