提高大型语言模型 (LLM) 性能的四种数据清理技术

lichunericli

已于 2024-05-02 17:03:06 修改

阅读量2.2k

点赞数 16

文章标签：人工智能自然语言处理

于 2024-04-08 16:34:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lichunericli/article/details/137513953

版权

本文探讨了在使用检索增强生成（RAG）过程中，如何通过四种自然语言处理（NLP）技术——数据清洗和降噪、文本标准化、元数据处理和上下文信息处理，来清理文本，从而提高大型语言模型（LLM）的性能和准确性。通过实例展示了这些技术如何应用于实际的文本清理，以改善模型理解和生成效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文地址：four-data-cleaning-techniques-to-improve-large-language-model-llm-performance

2024 年 4 月 2 日

检索增强生成（RAG）过程因其增强对大语言模型（LLM）的理解、为它们提供上下文并帮助防止幻觉的潜力而受到欢迎。 RAG 过程涉及几个步骤，从分块摄取文档到提取上下文，再到用该上下文提示 LLM 模型。虽然 RAG 可以显着改善预测，但有时也会导致错误的结果。摄取文档的方式在此过程中起着至关重要的作用。例如，如果我们的“上下文文档”包含LLM的拼写错误或不寻常的字符（例如表情符号），则可能会混淆LLM对所提供上下文的理解。

在这篇文章中，我们将演示如何使用四种常见的自然语言处理 (NLP)技术来清理文本，然后再将文本摄取并转换为块以供LLM进一步处理。我们还将说明这些技术如何显着增强模型对提示的响应。

RAG 过程的步骤改编自RAG-Survey。

为什么清理文档很重要？

在将文本输入任何类型的机器学习算法之前清理文本是标准做法。无论您使用的是监督算法还是无监督算法，甚至是为生成 AI (GAI) 模型构建上下文，使文本保持良好状态都有助于：

确保准确性：通过消除错误并使一切保持一致，您就不太可能混淆模型或最终出现模型幻觉。

提高质量：更清晰的数据确保模型能够使用可靠且一致的信息，帮助我们的模型从准确的数据中进行推断。

促进分析：干净的数据易于解释和分析。例如，使用纯文本训练的模型可能难以理解表格数据。

通过清理我们的数据（尤其是非结构化数据），我们为模型提供了可靠且相关的上下文，从而改进了生成，降低了幻觉的可能性，并提高了 GAI 速度和性能，因为大量信息会导致更长的等待时间。

如何实现数据清洗？

为了帮助您构建数据清理工具箱，我们将探讨四种 NLP 技术以及它们如何帮助模型。

步骤1：数据清洗和降噪

我们将首先删除不提供含义的符号或字符，例如 HTML 标签（在抓取的情况下）、XML 解析、JSON、表情符号和主题标签。不必要的字符通常会混淆模型，并增加上下文标记的数量，从而增加计算成本。

认识到没有一刀切的解决方案&#x

最低0.47元/天解锁文章

博客等级

码龄9年

406
原创

1万+
点赞

9803
收藏

6903
粉丝

关注

私信

热门文章

分类专栏

传统文化-易经 11篇
数据库 10篇
经济学 2篇
沟通 1篇
人工智能 8篇
Java 2篇
缓存 4篇
架构 1篇
搜索引擎 4篇
消息队列 2篇
微服务 1篇
注意事项 1篇
LLM 应用实现总结 8篇
GIT 1篇
IM即时通讯 1篇

最新评论

记一次港交所面试
liulicsu: 是纯英文面试吗
拆解 Transformer 的训练过程
tjuwzan: 最近在看Transformer的知识，的确有些地方有点没搞明白，想先请教几个问题： 1. 本篇主要讲Transformer的训练环境，图上模型最右侧，也就是Decoder的下面，是Output Embedding, 最上面是Output，他们之间有关系吗？ 2. 训练，如果是传统的机器学习或者深度学习，如果是Supervised Learning的话，应该有输入，ground truth，以及loss function，但Transformer很少有人提这个，那么Transformer的学习过程是什么？Loss Function是什么？ 3. 还是训练问题，普通深度学习模型学习的大概是W and B，Transformer的学习是Wq, Wk, Wv吗？是如何学习的呢？尤其在第7节里描述：例如，对于计算 Query 矩阵，权重矩阵的行数必须与转置矩阵的列数相同，而权重矩阵的列数可以任意；例如，我们假设权重矩阵有 4 列。权重矩阵中的值介于 0 和 1 之间，随机初始化，当 Transformer 开始学习语料的含义时，这些值会更新。文中提到的三句话，是不是语料？咱们的例子中是不是就是用这三句话作为训练例子呢？ 4. 依然是文章中描述的，把when you play the game of thrones, you win or you die. 这句话有两个部分，前面部分作为输入，后面部分作为输出，那么第一句，I drink and I know things，这里面只有一句，怎么分输入和输出呢？ 5. 掩码的作用没太理解，可否解释一下呢？很多都说是为了让模型只参考前面，而不看后面，这句话还是没有真正理解。程序员出身，一直是按照程序员思维想弄清楚每个细节，但是NLP基础有点薄弱，理解一些思想有点难度。多谢解答
Java内存模型（JMM）与Volatile关键字底层原理
Yunwushenyanying: 讲的太全面了！非常有帮助
记录些MySQL题集（4）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619168846。
DSPy入门：告别指令提示，拥抱编程之旅！
LK12mufc: 可以理解成，langchain和llamaindex需要自己写prompt。DSPY自动写prompt？？如果是这样，最终到LLM那里还是一样的呀

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。