数据清洗与治理:为大模型预训练打造完美数据

AI

引言

AI大模型性能的突破得益于高质量的数据。数据的高效处理是影响大模型成功的关键因素之一,随着数据集规模的增大,数据清洗治理的难度也在攀升。

01

    **数据清洗与治理的必要性**

训练大模型需要大规模、高质量、多模态的数据集,通常需要从各个领域和多个数据源收集数据,这些数据可能是文本、图像、语音、视频等多种形式。

数据来源繁杂且内容混杂,存在诸多不规范和不一致的情况,会对模型性能提升造成障碍。同时,在这些数据中也存在如行业白皮书、学术论文等特定行业专有数据,其中包含公式、网址、图片等多种内容格式,需要进行结构化解析。

02

    **大模型数据清洗流程**

数据清洗的过程包括数据格式清理及转换、数据去重和数据整合。

数据格式清理及转换

网页数据格式为HTML,而电子图书分EPUB、PDF、MOBI等多种格式。PDF分为可编辑版和扫描版。论文期刊的格式有PDF、DOC等多种。

EPUB格式示例

MOBI格式示例

**多样的格式加大了数据处理的难度。**因此,数据清洗第一步就是数据格式清理,将数据分成可处理格式的数据与不可处理格式的数据。数据格式不同对于数据处理影响非常大,因此,下一步需要将不同格式统一转换成相同格式。

部分格式转换代码

数据去重

数据格式达到统一之后,需要对数据进行简单去重,如文件名去重、数据MD5值去重等,清洗掉一些容易分辨的重复数据,为后一步数据处理节省工作量。

**数据堂基于MD5(Message-Digest Algorithm 5)哈希算法进行MD5值去重,**由于MD5算法具有高效、唯一性和不可逆性的特点,因此可以快速计算并比较文件的MD5值,以确定文件是否重复。通过去除重复的文件,可节省存储空间和提高数据处理效率。

文件md5值去重代码

数据整合

经历上述数据处理之后,数据存储结构可能不太一致,因此数据清洗的最后一步是将分散的文件合并成一个整体,为后续的分析和决策提供完整、一致的数据。

03

    **大模型数据治理流程**

数据堂基于多年数据处理经验形成一整套数据治理流程,包括质量过滤、敏感内容过滤、数据去重、人工检查等步骤。

质量过滤

直接收集到的文本数据往往掺杂较多低质量数据。数据堂主要采用两种过滤方法:基于启发式规则的方法和基于分类器的方法。

基于启发式规则的方法主要通过精心设计的规则来针对性识别和剔除低质量的文本数据。例如在处理代码语料时,可以过滤掉非代码相关格式的数据。为了训练特定目标语言为主导的大语言模型,还可以使用基于语种的过滤。

数据堂也训练出用于判别数据质量的文本分类器,进行预训练语料的治理。具体来讲,可以选取部分代表性的数据进行质量标注,以此训练出一个精准的文本质量分类器。

在进行数据治理时,过滤效率也是我们会考虑的因素之一。 为了平衡效率与准确性,针对具体数据集也会进行以上策略的灵活组合。

敏感内容过滤

除了去除低质量内容,收集到的数据还可能包括有毒内容或隐私信息,需要进一步更为细致的过滤和处理。

数据堂研发了有毒内容和隐私信息的过滤方法,以确保数据的纯净度和安全性。

对于有毒内容的文本,数据堂采用基于分类器的过滤方法。 具体来说,数据堂构建出高效的毒性文本分类器,通过设置合理的阈值,有效识别并过滤掉含有有毒内容的信息。

在进行分类阈值设置时,需要在精确度和召回率之间寻求平衡,避免过多或者过少去除候选数据。

**针对隐私内容,数据堂采用基于规则的方法,**主要标注电话号码、邮箱地址、IP等多类敏感信息。一旦检测到相关隐私信息,便会根据其出现的频率采取不同的处理策略。

隐私内容过滤结果示例

数据去重

研究发现,预训练语料中的重复低质量数据可能诱导模型在生成时频繁输出类似数据,进而影响模型的性能。此外,这些数据也可能导致训练过程的不稳定(训练损失震荡),可能导致训练过程崩溃。

对预训练数据进行去重处理是一个重要步骤。总体来说,去重算法基于不同的计算粒度以及匹配方法。

数据集和文档级别的去重,旨在去除那些具有高度相似甚至完全一致内容的文档。如:多个 URL 可能具有相同的网页内容,或者网页数据集和新闻数据集中包含相同的新闻文档。

随后,数据堂进一步在句子级别实现更为精细的去重。如,计算两个句子之间公共子串的长度,当其长度过长时直接删除某一个句子。

在去重过程中,数据堂使用精确匹配算法(即每个字符完全相同)和近似匹配算法(基于某种相似性度量)。考虑到预训练数据的规模非常大,实施过程中会综合考虑去重效率和去重效果之间的平衡。

人工检查

在程序处理之后,数据堂还会通过人工检查来确保程序处理的准确性,数据质量评估需要随机采样不少于5000个样本进行人工评估。不同类型的数据将按照不同的准确率要求进行客观评估。

人工检查团队将从文本字符识别准确率、布局准确率、内容质量等方面进行综合性评估,并备有一套完善的评估质量细则。

04

    **结语**

数据专业高效的处理是关键,数据堂在大模型预训练数据的清洗与治理方面拥有丰富的经验和专业能力,助力客户快速解决大模型的“卡脖子”问题。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值