[论文笔记] LLM大模型清洗篇——1、规则清洗&去重&模型清洗

规则清洗

        gopher、C4、Fineweb 论文的规则

算子名称	算子描述	算子来源	应用维度	过滤条件
duplicate_line_fraction	行重复率	Gopher	文档级别	≤ 0.30
duplicate_paragraph_fraction	自然段重复率	Gopher	文档级别	≤ 0.30
duplicate_line_character_fraction	行字符重复率	Gopher	行级别	≤ 0.20
duplicate_paragraph_character_fraction	自然段字符重复率	Gopher	自然段级别	≤ 0.20
top_2-gram_character_fraction	前2-gram字符占比	Gopher	文档级别	≤ 0.20
top_3-gram_character_fraction	前3-gram字符占比	Gopher	文档级别	≤ 0.18
top_4-gram_character_fraction	前4-gram字符占比	Gopher	文档级别	≤ 0.16
duplicate_5-gram_character_fraction	5-gram字符重复占比	Gopher	文档级别	≤ 0.15
duplicate_6-gram_character_fraction	6-gram字符重复占比	Gopher	文档级别	≤ 0.14
duplicate_7-gram_character_fraction	7-gram字符重复占比	Gopher	文档级别	≤ 0.13
duplicate_8-gram_character_fraction	8-gram字符重复占比	Gopher	文档级别	≤ 0.12
du
### 大型语言模型预训练数据清洗技术与最佳实践 #### 数据源的选择与管理 对于大型语言模型LLM),高质量的数据源至关要。通常使用的数据源包括网页、维基百科、书籍以及代码片段等[^2]。为了高效管理和处理这些海量数据,应建立有效的数据管理系统,这可能涉及使用诸如PostgreSQL或MongoDB这样的数据库系统来存储和快速检索用于模型训练的数据[^1]。 #### 操作 复的内容不仅浪费计算资源而且会影响最终模型的质量。因此,在构建语料库之前应当执行严格的流程。通过哈希算法或其他相似度匹配的方法可以有效地识别并移除冗余条目。 #### 过滤不相关内容 并非所有的抓取内容都适合用来训练LLMs;一些低质量或是无关紧要的信息可能会干扰学习过程。为此,需设计一套过滤机制除那些不符合特定标准的文章段落——比如含有过多拼写错误的文字、广告性质强烈的页面或者是版权受限材料等等。 #### 文本规范化处理 在准备阶段还需对原始文本实施一系列标准化措施,例如转换成统一编码格式(UTF-8)、删除HTML标签和其他元字符标记、调整大小写字母的一致性等。此外,针对某些特殊领域还可以考虑加入专门术语表来进行更精细的清理工作。 #### 分词与词汇表创建 考虑到中文等非英文语言的特点,在实际应用中往往需要先进行分词处理再进入后续步骤。采用字节对编码(Byte Pair Encoding,BPE)是一种流行的做法,它可以根据频率统计动态生成子字符串单位从而形成紧凑而高效的表示形式。经过这样一轮加工之后便能建立起规模约为15万词条左右的基础词典供进一步分析利用。 ```python from tokenizers import ByteLevelBPETokenizer tokenizer = ByteLevelBPETokenizer() # 训练 tokenizer 使用自定义参数... ``` #### 加权训练策略 当面对多样的资料集合时,简单混合未必总能得到最优效果。相反地,根据不同类型的贡献程度赋予相应的权因子有助于提升整体性能表现。具体而言就是让更加要或者更具代表性的部分获得更高的关注度,以此促进更好的泛化能力发展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心心喵

喵喵(*^▽^*)

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值