[论文笔记] LLM大模型清洗篇——1、规则清洗&去重&模型清洗

最新推荐文章于 2025-04-28 22:01:42 发布

心心喵

最新推荐文章于 2025-04-28 22:01:42 发布

阅读量304

点赞数

分类专栏：论文笔记文章标签：人工智能

本文链接：https://blog.csdn.net/Trance95/article/details/142214081

版权

论文笔记专栏收录该内容

158 篇文章 ¥299.90 ¥399.90

订阅专栏

超级会员免费看

规则清洗

gopher、C4、Fineweb 论文的规则

算子名称	算子描述	算子来源	应用维度	过滤条件
duplicate_line_fraction	行重复率	Gopher	文档级别	≤ 0.30
duplicate_paragraph_fraction	自然段重复率	Gopher	文档级别	≤ 0.30
duplicate_line_character_fraction	行字符重复率	Gopher	行级别	≤ 0.20
duplicate_paragraph_character_fraction	自然段字符重复率	Gopher	自然段级别	≤ 0.20
top_2-gram_character_fraction	前2-gram字符占比	Gopher	文档级别	≤ 0.20
top_3-gram_character_fraction	前3-gram字符占比	Gopher	文档级别	≤ 0.18
top_4-gram_character_fraction	前4-gram字符占比	Gopher	文档级别	≤ 0.16
duplicate_5-gram_character_fraction	5-gram字符重复占比	Gopher	文档级别	≤ 0.15
duplicate_6-gram_character_fraction	6-gram字符重复占比	Gopher	文档级别	≤ 0.14
duplicate_7-gram_character_fraction	7-gram字符重复占比	Gopher	文档级别	≤ 0.13
duplicate_8-gram_character_fraction	8-gram字符重复占比	Gopher	文档级别	≤ 0.12
du

了解本专栏