大模型应用：搞懂RAG，原理，流程，最佳实践

AI女王

已于 2024-09-12 11:44:46 修改

阅读量889

点赞数 29

文章标签：人工智能 agi ai RAG 大模型

于 2024-07-23 11:43:54 首次发布

本文链接：https://blog.csdn.net/m0_56255097/article/details/140631660

版权

RAG一句话说明白：通过检索外部数据，增强大模型的生成效果

顾名思义他的流程如下：

graph LR
P[数据处理] -.-> R[检索]
R --> A[利用]
A --> G[生成]

目标是把数据变成特征

传统上，我们把数据分成三种：

传统数据结构化的方法是将数据先处理成文本，再进一步提取特征。比如通过一下ocr识别这样的方法。

但是，时代变了，像gpt4 这种模型支持多模态，这给我们可操作的空间就很多了。

更多的时候，我们是将广义上的模态，转变为模型可接受的狭义上的多模态。

如果你需要提特征，请直接使用大模型embedding，下面的内容仅做了解

embedding对内容进行特征提取通常也有三种方法：对称语义，非对称，混合

对称语义意味着两个向量之间的相似性度量是对称的，即如果向量A和向量B的相似性是某个值，那么向量B和向量A的相似性也是同样的值。在这种情况下，两个向量之间的关系是互相的，常见的应用包括：

词向量（Word Embeddings） ：例如，Word2Vec、GloVe等模型，这些模型生成的词向量可以用于计算词语之间的相似性，通常使用余弦相似度（cosine similarity）等对称度量方式。

文档相似度：在信息检索中，文档与文档之间的相似性计算也通常是对称的。

非对称语义意味着两个向量之间的相似性度量是非对称的，即向量A和向量B的相似性可能与向量B和向量A的相似性不同。在这种情况下，两个向量之间的关系具有方向性，常见的应用包括：

问答系统（QA Systems） ：在问答系统中，问题和答案之间的关系是非对称的。一个问题对应一个特定的答案，但反过来并不一定成立。

推荐系统：在推荐系统中，用户与物品之间的关系也通常是非对称的。用户可能对某个物品有兴趣，但物品并不会对用户有兴趣。

翻译模型：在翻译模型中，源语言和目标语言之间的关系也是非对称的。一个句子从源语言翻译到目标语言，但反向翻译不一定能得到原句。

混合结合了前两者的优点，并且通常会有instruction tuning。能够让模型理解指令。

这类的通常有：m3e,bge,gte

踩坑。有的时候，并不是把所有的内容参与特征化，效果会更好。尤其是在生成式场景里，尤为明显。

举个例子：oncall小助手场景下，我们过往的oncall记录通常作为一个数据集。这个数据集中参与特征化的部分应该只有问题+原因+结论，而不是所有通话内容全部参与特征化，效果会更好。

受限于文件内容，对于大文本分而治之是十分有必要的。

比较常见的，有langchain中的CharacterTextSplitter和RecursiveCharacterTextSplitter，它们基于一定的规则，对文本进行分割，并且可以保留一定部分的重叠。
langchain还有固定结构的切割器，比如MarkdownTextSplitter，PythonCodeTextSplitter，HTMLHeaderTextSplitter等，用来切割固定结构的文本。
langchain中还提供了按token切割的方法SentenceTransformersTokenTextSplitter
也可以基于一定算法的文件分割：比如基于bert的中文的分割模型nlp_bert_document-segmentation_chinese-base，或者将基于NLTK的NLTKTextSplitter，再或者基于 spaCy 库的SpacyTextSplitter。

当然，除了分割法还有总结法，就是将大文本中的关键内容提取出来，总结法也有很多，你直接大模型总结吧，我这里懒得写了。毕竟总结这个事可能是一个团队好几年的工作，一两句也说不清楚。

当我们准备好数据后，就可以检索了

向量检索：我们将提取到的特征放到向量数据库中，在发起query时，从数据库中召回我们需要的topn内容。
关键字检索：我们不需要提特征，直接把文本放到ElasticSearch,OpenSearch这种数据库中，然后根据query的关键词进行检索，相似度可以用传统的算法计算，比如tfidf，或者knn，当然这些算法数据库本身就支持。
图数据检索：将数据按照一定关系放入ne4j,nebula等图数据库中。然后查询使用。在社交网络分析这类场景中很常用。
关系数据库检索：比如电商推荐，智能客服，或者导购数字人这种场景，会从关系型数据中检索信息。
搜索引擎：在开放域中，通常会先走搜索引擎进行信息填充。当然现在比计较流行后置的ReAct范式。