前言
本篇将介绍llama3模型训练的数据质量控制方法
1、训练数据清洗
-
安全性过滤:对训练数据进行筛选,排除包含个人信息、有害内容和成人内容的文本。
-
文本清洗:使用HTML解析器提取文本、代码和数学公式,同时去除markdown标签,保留HTML中的alt标签。
-
文本去重:
-
URL去重:保留每个网页的最新版本URL。
-
Document-level去重:使用全局MinHash算法判定并去除重复文档。
-
Line-level去重:根据每30M文档中出现超过6次的行进行判定和去重。
-
启发式去重:通过n-gram覆盖比检测重复内容,使用定义的“脏词”过滤成人内容,通过token分布的KL距离检测异常符号。
-
基于模型的低质过滤:使用多种模型评估文档质量,如Llama2-chat和DistilledRobera。
-
代码和推理数据: 专门定制 HTML parser 从网络文本中抽取出数学推导、理工科里的推理内容以及与文本交织在一起的代码,通过这些数据对 Llama2 进行提示微调,然后使用 Llama2 生成标注数据,交给 DistilledRoberta 从网络文本中分辨出这部分数据。
-
多语言数据。 基于 fasttext 的语言分类模型将所有数据分类成 176 种语言,在每种语言内部执行 document-level 和 line-level 去重,使用每种语言专门的模型和启发式规则过滤低质量样本。
2、不同来源训练数据配比
-
使用知识分类器和规模定律实验来确定不同数据来源在训练集中的占比,最终得到的数据配比如下:
-
约50%的token与通用知识相关。
-
25%的数学和推理数据。
-
17%的代码数据。
-
8%的多语言数据。
3、后训练数据质量控制
- 后训练阶段使用的训练数据大多是基于已有大模型合成的,因此对数据质量的要求更高。
(1)启发式规则:
- 清洗频繁出现的脏数据,如emoji符号、感叹号和道歉前缀等。
(2)基于模型的方法:
-
主题分类:使用Llama3 8B微调的主题分类器对数据进行二级主题分类。
-
质量分:使用奖励模型和Llama-prompt对样本进行质量打分。
-
复杂度:设计Llama3 70B的prompt,抽取SFT数据中的意图,意图越多说明问题越复杂。
-
语义去重:使用Roberta对样本聚类,根据质量分和复杂度排序,过滤高度相似的样本。
4、数据生产的新方法
-
执行反馈:
-
Step 1:随机采样大量代码片段,通过提示让模型总结代码片段中的问题。
-
Step 2:告诉Llama3这些问题、代码以及一些编程语言通用规则,生成这些问题的解决方法。
-
Step 3:抽取解决方法中的源代码,对其进行编译,还可以生成一些单元测试,将编译不过或者单元测试不通过的样本,可以尝试让Llama3来修复,可以修复大约20%的样本。
-
编程语言互译:
-
针对冷门语言(如typescript/PHP)数据较少的问题,使用Llama3将热门语言(如Python/C++)翻译成冷门语言的版本,并结合语法分析、编译和跑单测来保证质量。
-
回译:
-
Step 1:让Llama3为代码生成注释、解释等信息。
-
Step 2:让Llama3根据这些信息生成代码。
-
Step 3:让Llama3判断生成的代码和原始代码是否一致,将不一致的过滤掉来保证质量。
最后
为了助力朋友们跳槽面试、升职加薪、职业困境,提高自己的技术,本文给大家整了一套涵盖AI大模型所有技术栈的快速学习方法和笔记。目前已经收到了七八个网友的反馈,说是面试问到了很多这里面的知识点。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

面试题展示
1、请解释一下BERT模型的原理和应用场景。
答案:BERT(Bidirectional Encoder Representations from Transformers)是一种预训练的语言模型,通过双向Transformer编码器来学习文本的表示。它在自然语言处理任务中取得了很好的效果,如文本分类、命名实体识别等。
2、什么是序列到序列模型(Seq2Seq),并举例说明其在自然语言处理中的应用。
答案:Seq2Seq模型是一种将一个序列映射到另一个序列的模型,常用于机器翻译、对话生成等任务。例如,将英文句子翻译成法文句子。
3、请解释一下Transformer模型的原理和优势。
答案:Transformer是一种基于自注意力机制的模型,用于处理序列数据。它的优势在于能够并行计算,减少了训练时间,并且在很多自然语言处理任务中表现出色。
4、什么是注意力机制(Attention Mechanism),并举例说明其在深度学习中的应用。
答案:注意力机制是一种机制,用于给予模型对不同部分输入的不同权重。在深度学习中,注意力机制常用于提升模型在处理长序列数据时的性能,如机器翻译、文本摘要等任务。
5、请解释一下卷积神经网络(CNN)在计算机视觉中的应用,并说明其优势。
答案:CNN是一种专门用于处理图像数据的神经网络结构,通过卷积层和池化层提取图像特征。它在计算机视觉任务中广泛应用,如图像分类、目标检测等,并且具有参数共享和平移不变性等优势。
6、请解释一下生成对抗网络(GAN)的原理和应用。
答案:GAN是一种由生成器和判别器组成的对抗性网络结构,用于生成逼真的数据样本。它在图像生成、图像修复等任务中取得了很好的效果。
7、请解释一下强化学习(Reinforcement Learning)的原理和应用。
答案:强化学习是一种通过与环境交互学习最优策略的机器学习方法。它在游戏领域、机器人控制等领域有广泛的应用。
8、请解释一下自监督学习(Self-Supervised Learning)的原理和优势。
答案:自监督学习是一种无需人工标注标签的学习方法,通过模型自动生成标签进行训练。它在数据标注困难的情况下有很大的优势。
9、解释一下迁移学习(Transfer Learning)的原理和应用。
答案:迁移学习是一种将在一个任务上学到的知识迁移到另一个任务上的学习方法。它在数据稀缺或新任务数据量较小时有很好的效果。
10、请解释一下模型蒸馏(Model Distillation)的原理和应用。
答案:模型蒸馏是一种通过训练一个小模型来近似一个大模型的方法。它可以减少模型的计算和存储开销,并在移动端部署时有很大的优势。
11、请解释一下LSTM(Long Short-Term Memory)模型的原理和应用场景。
答案:LSTM是一种特殊的循环神经网络结构,用于处理序列数据。它通过门控单元来学习长期依赖关系,常用于语言建模、时间序列预测等任务。
12、请解释一下BERT模型的原理和应用场景。
答案:BERT(Bidirectional Encoder Representations from Transformers)是一种预训练的语言模型,通过双向Transformer编码器来学习文本的表示。它在自然语言处理任务中取得了很好的效果,如文本分类、命名实体识别等。
13、什么是注意力机制(Attention Mechanism),并举例说明其在深度学习中的应用。
答案:注意力机制是一种机制,用于给予模型对不同部分输入的不同权重。在深度学习中,注意力机制常用于提升模型在处理长序列数据时的性能,如机器翻译、文本摘要等任务。
14、请解释一下生成对抗网络(GAN)的原理和应用。
答案:GAN是一种由生成器和判别器组成的对抗性网络结构,用于生成逼真的数据样本。它在图像生成、图像修复等任务中取得了很好的效果。
15、请解释一下卷积神经网络(CNN)在计算机视觉中的应用,并说明其优势。
答案:CNN是一种专门用于处理图像数据的神经网络结构,通过卷积层和池化层提取图像特征。它在计算机视觉任务中广泛应用,如图像分类、目标检测等,并且具有参数共享和平移不变性等优势。
16、请解释一下强化学习(Reinforcement Learning)的原理和应用。
答案:强化学习是一种通过与环境交互学习最优策略的机器学习方法。它在游戏领域、机器人控制等领域有广泛的应用。
17、请解释一下自监督学习(Self-Supervised Learning)的原理和优势。
答案:自监督学习是一种无需人工标注标签的学习方法,通过模型自动生成标签进行训练。它在数据标注困难的情况下有很大的优势。
18、请解释一下迁移学习(Transfer Learning)的原理和应用。
答案:迁移学习是一种将在一个任务上学到的知识迁移到另一个任务上的学习方法。它在数据稀缺或新任务数据量较小时有很好的效果。
19、请解释一下模型蒸馏(Model Distillation)的原理和应用。
答案:模型蒸馏是一种通过训练一个小模型来近似一个大模型的方法。它可以减少模型的计算和存储开销,并在移动端部署时有很大的优势。
20、请解释一下BERT中的Masked Language Model(MLM)任务及其作用。
答案:MLM是BERT预训练任务之一,通过在输入文本中随机mask掉一部分词汇,让模型预测这些被mask掉的词汇。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
