大模型数据工程

不如吃茶去_

于 2024-06-13 10:27:17 发布

阅读量252

点赞数 3

分类专栏： llm 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43014875/article/details/139647310

版权

llm 专栏收录该内容

1 篇文章

订阅专栏

低质过滤
语言过滤：如果一个大语言模型仅关注一种或者几种语言，那么就可以大幅度的过滤掉数据中其他语言的文本。
指标过滤：利用评测指标也可以过滤低质量文本。例如，可以使用语言模型对于给定文本的困惑度（Perplexity）进行计算，利用该值可以过滤掉非自然的句子。
统计特征过滤：针对文本内容可以计算包括标点符号分布、符号字比（Symbol-to-Word Ratio）、句子长度等等在内的统计特征，利用这些特征过滤低质量数据。

关键词过滤：根据特定的关键词集，可以识别和删除文本中的噪声或无用元素，例如，HTML标签、超链接以及冒犯性词语等。

2.冗余去除：
LLaMA：首先将文档拆分为段落，并把所有字符转换为小写字符、将数字替换为占位符，以及删除所有Unicode 标点符号和重音符号来对每个段落进行规范化处理。然后，使用为SHA-1 方法为每个段落计算一个哈希码（Hash Code），并使用前64 位数字作为键。最后，利用每个段落的键进行重复判断
RefinedWeb：首先去除掉页面中菜单、标题、页脚、广告等内容，仅抽取页面中的主要内容。在此基础上，在文档级别进行过滤，采用与文献提到类似的方法，使用n-gram 重叠程度来衡量句子、段落以及文档的相似度。如果重复程度超过预先设定的阈值，则会过滤掉重复段落或文档。

3.隐私消除
删除隐私数据最直接的方法是采用基于规则的算法；也可以基于命名实体识别的方法，利用命名实体识别算法检测姓名、地址和电话号码等个人信息内容并进行删除或者替换

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。