DateWhale简单学点大模型课程组队学习打卡task04--kk

费曼说:学习一件事情最好的方式是做它的老师,这也是写这篇博文的目的,写这篇博文,即便有其他原因,但更多的还是写给自己,话不多说,让我们开始进入大模型吧!

  task4主要讲的是大模型的数据篇,按照这篇课程的设计来说,已经进入到了“剥开洋葱的第⼀层”这个阶段,这不由得让我们再次地想起机器学习的四个要素:数据、模型、目标函数、优化。

  数据是最开始的部分,也是关乎机器学习最后成效的影响显著的部分。可以这样来说,真实可靠的数据是模型训练需要成功必不可少的一部分。当然,获取到数据后、我们还会对数据进行清理、标注、变换etc.

5.1 大语言模型背后的数据

  大模型所需的数据有着海量的显卡资源,对应着海量的数据,但是,作为机器学习的学习者,我们都知道,数据是需要经过各种处理,去掉其中错误的数据,进行数据的增强等等才能实现从生数据(raw data)到数据集(dataset)可以为机器学习使用的输入。

  但是,语言模型的自监督学习(self-supervised learning)机制能够很好的避免复杂的数据预处理工作,包括数据的标注(这是相对成本较高的工作)等,下面是自监督学习的机制(下方是链接:Self-supervised Learning (ntu.edu.tw)):

  也就是说,只需要最原始的语句(但同样也需要高质量,但获取相对更加容易),我们就可以通过自监督学习的机制,来训练大语言模型。这种机制是成功的,原因在于与社会的现状相契合——语言,作为人类产生的大规模的数据,本身就带有一定的规律性,而语言模型最基础架构的BERT能够通过mask填空机制,能够对这种海量的数据进行应用,最终达到了从量变到质变的伟大跨越。

  大语言模型在今天取得的胜利,不仅仅是在于学术界的进步,而是在于学术界与社会联动所产生的胜利,输入开放,并且不会因为数据过多而拥挤的机制,给了大模型从各种来源的语言数据学习的机会,开放是可贵的。

  下面就是一些大语言模型所用到的数据集的分类:

5.1.1 WebTextOpenWebText数据集
  WebText数据集是被用作来训练GPT-2的数据集,与Common Crawl对比,它的特性是既保持了较高的质量,同时又能保证数据集的多样性。
5.1.2 Colossal Clean Crawled Corpus C4

  训练T5模型所用到的数据。经过Dogge等人的分析,数据主要包括

  元数据:来源是话语数据。

  包含的数据:由机器或⼈类创作的,社会偏见,数据污染。

  排除的数据:医疗或健康数据,人口身份。

  也就是说,这是将身份和信息数据经过筛选后所得到的数据集
5.1.3 Benchmark的数据污染问题

  简而言之,就是在大模型测试中不能保证训练数据和测试集的完全清洁,没有污染

  同时研究人员发现,这一现象并不是由于数据集托管在云端导致的,这向我们展示了数据泄露的不存在性。

其他:
5.1.4 GPT-3的数据集
5.1.5 The Pile数据集
5.2 数据集文档

1.对于一个文档,我们首先会想到它作为文档存在的意义在于何方,数据集文档存在的主要目的是:帮助数据集的创建者反思他们对数据集的决策;另一方面,数据文档可以让数据集的使用者了解到数据集的相关的背景信息,有益于数据集使用者的决策。

5.3 数据生态

目前,我们主要关注现有大型语言模型数据集的分析和文档记录。然而,实际上,数据是一个广泛的概念,可以从许多其他角度进行研究。

在数据管理方面,机器学习研究中通常认为数据集是固定的对象,收集起来之后直接投入到训练算法中。然而,在数据库领域,有一个整个子领域正在思考数据是如何产生和使用的生态系统,这在工业领域特别相关。

基础模型报告的数据部分讨论了一些问题。数据治理主要关注一个组织如何创建数据、维护其质量和安全性。Hugging Face发起的BigScience项目旨在收集一个大型多语种数据集并训练一个大型语言模型。BigScience的数据治理工作组正在开发一个框架,以负责任地策划高质量的数据源,而不是无差别地爬取网页。

数据尊严是一个源自微软和RadicalxChange的概念,试图思考数据的本质。人们创造数据,由于人们生活在社会环境中,数据也并不仅仅是个体的财产,而是群体的财产,例如电子邮件、遗传数据。在个体层面上,数据没有价值,但在集体层面上,它具有巨大的价值。相关的框架Data Shapley试图在机器学习的背景下给定数据点赋予价值。目前的情况是,人们免费放弃他们的数据,大公司从中获取大量的价值和权力。例如,Alice和Bob都是作家。Alice免费提供写作示例,这可以被用来训练可以替代Bob的语言模型。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值