RAG（检索增强生成）中的挑战与问题

本文链接：https://blog.csdn.net/LuLaaa_/article/details/135742527

本文探讨了RAG技术在数据向量化、语义搜索和LLM整合输出过程中面临的挑战，包括信息损失、搜索不准确性和LLM的幻觉。强调了持续研究对提升RAG性能的关键性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一般来说，RAG会经历数据向量化、语义搜索数据召回和大模型整合输出的过程。

然而，RAG也面临着一些挑战和问题，其中最主要的有以下三个方面：

数据向量化的信息损失

为了实现高效的文档检索，通常需要将原始的文本数据转化为数值向量，这一过程又称为数据向量化。数据向量化的目的是将文本数据映射到一个低维的向量空间中，使得语义相似的文本在向量空间中的距离较近，而语义不相似的文本在向量空间中的距离较远。然而，数据向量化也会导致一定程度的信息损失，因为文本数据的复杂性和多样性很难用有限的向量来完全表达。因此，数据向量化可能会忽略一些文本数据的细节和特征，从而影响文档检索的准确性。

语义搜索的不准确

在RAG中，语义搜索是指根据用户的问题，从文档集合中检索出与问题语义最相关的文档，这一过程又称为数据召回。语义搜索的难点在于如何理解用户的问题和文档的语义，以及如何衡量问题和文档之间的语义相似度。目前，语义搜索的主流方法是基于数据向量化的结果，利用向量空间中的距离或相似度来度量语义相似度。然而，这种方法也存在一些局限性，例如向量空间中的距离或相似度并不一定能反映真实的语义相似度，而且向量空间中的噪声和异常值也会干扰语义搜索的结果。因此，语义搜索的准确率也无法有100%的保证。

LLM的幻觉

在RAG中，LLM（Large Language Model）是指一个大规模的预训练语言模型，它的作用是根据用户的问题和检索到的文档，生成最合适的答案，这一过程又称为数据整合。LLM的优势在于它能够利用海量的文本数据进行自我学习，从而具备强大的语言理解和生成能力。然而，LLM也存在一些问题，例如LLM可能会产生一些与事实不符或者逻辑不通的答案，这种现象又称为LLM的幻觉。LLM的幻觉的原因有很多，例如LLM的预训练数据可能存在一些错误或偏见，LLM的生成过程可能存在一些随机性或不确定性，LLM的输出可能受到一些外部因素的影响等。因此，LLM的准确率也是不可靠的。