简易指南：迅速构建个性化RAG（Retrieval-Augmented Generation）应用

大飞攻城狮

于 2024-08-28 09:52:24 发布

阅读量400

点赞数 8

文章标签：大模型入门人工智能大模型学习大模型 AI大模型大模型教程

本文链接：https://blog.csdn.net/m0_63171455/article/details/141631919

版权

前面的章节，我们已经完成了可用的基于知识库回答的ai助手，尽管RAG容易上手，但是要真正掌握其精髓却颇有难度，实际上，建立一个的有效的RAG系统不仅仅是将文档放入向量数据库并叠加一个llm模型那么简单，这种方式知识时而有效而已。比如我们问些复杂点问题：

可以看llm的回答的确是相当不如意，提示词的内容并不全面。

在揭开解决方案的神秘面纱之前，我们先来探索一下这个问题的核心。想象一下，你有一个巨大的图书馆，里面有数十亿本书，而你的任务是在这个图书馆中找到与你的研究主题最相关的资料。这就是RAG（Retrieval-Augmented Generation）模型的工作——在大规模的文本海洋中进行语义搜索。

为了在这个巨大的图书馆中快速找到答案，我们使用了一种叫做向量搜索的技术。这就像是在一个多维空间中，把每本书的内容压缩成一个小小的向量，然后通过计算这些向量与你的查询向量之间的距离（比如用余弦相似度），来找到最接近的那本书。但是，这里有个小问题。当我们把书的内容压缩成向量时，就像是把一个丰富多彩的故事变成了黑白照片，总会有一些细节丢失。所以，有时候即使是最接近的三本书，也可能遗漏了一些关键的线索。如果那些排名靠后的书里藏着宝藏般的信息，我们该怎么办呢？

一个直观的想法是，把更多的书带回家（增加top_k值），然后把它们一股脑儿地交给我们的“大语言模型”。但是，我们真正关心的是召回率，也就是“我们找到了多少真正相关的书”。召回率并不在乎我们带回了多少本书，它只关心我们是否找到了所有相关的书。理论上，如果我们把图书馆里的每一本书都带回家，我们就能达到完美的召回率。然而，现实是残酷的。我们的“大语言模型”就像是一个只能装下有限信息的背包，我们称之为上下文窗口。即使是最先进的模型，比如Anthropic的Claude，它的背包可以装下100K Token（可以想象成100K个信息块），我们还是不能把所有的书都塞进去。可以参考下面这个图：

图表达的意思是如果信息被放置在上下文窗口的中间位置，那么模型回忆或检索这些信息的能力会降低，其效果甚至不如这些信息从未被提供给模型。这里的“上下文窗口”指的是模型在处理语言时能够考虑的文本范围，通常是一个固定长度的序列。

这种现象可能是因为在上下文窗口中间的信息相比于靠近窗口开始或结束位置的信息，更容易被后续输入的信息所覆盖或干扰，从而导致模型在需要时难以准确地回忆起这些信息。这表明，在设计或使用大型语言模型时，信息在上下文中的位置可能会影响模型的性能，特别是对于需要长期依赖或记忆的任务。

举个例子：

假设我们有一个大型语言模型（LLM），它的上下文窗口长度为10个句子。我们想要模型根据一段对话来回答问题。对话内容如下：

小明说：“我昨天去了图书馆。”

小华问：“你借了什么书？”

小明回答：“我借了一本关于历史的书。”

小华又问：“那本书是关于哪个时期的？”

小明说：“是关于古罗马的。”

小华说：“听起来很有趣。”

小明补充：“是的，书中有很多关于罗马帝国的细节。”

小华问：“你打算什么时候还书？”

小明回答：“下周三。”

小华说：“我可能也会去借那本书。”

现在，我们要求模型回答问题：“小明借的书是关于什么的？”

如果我们将这个问题放在上下文窗口的中间（例如，在第5句和第6句之间），模型可能会因为后续的对话内容（如小华对书的兴趣、还书日期等）而分散注意力，导致它回忆起小明借的书是关于古罗马的能力降低。相比之下，如果问题紧跟在第3句或第5句之后，模型可能更容易直接关联到小明借的书的内容，因为它还没有被后续的对话内容所干扰。

这个例子说明了在上下文窗口中间存储的信息可能会受到后续信息的干扰，从而影响模型回忆这些信息的能力。这也强调了在设计交互式或连续对话系统时，合理安排信息在上下文中的位置对于提高模型性能的重要性。

LLM（大型语言模型）的回忆能力指的是它从其上下文窗口内的文本中检索信息的能力。研究表明，随着我们在上下文窗口中放置更多的令牌（tokens），LLM的回忆能力会下降。当我们过度填充上下文窗口时，LLM也更不可能遵循指令——因此，过度填充上下文窗口是一个糟糕的想法。

我们可以通过增加向量数据库返回的文档数量来提高检索回忆率，但我们不能在不损害LLM回忆能力的情况下将这些文档传递给LLM。

解决这个问题的方法是，通过检索大量文档来最大化检索回忆率，然后通过最小化传递给LLM的文档数量来最大化LLM的回忆能力。为了做到这一点，可以采用以下方案：

1. 使用合适的切分器

在前面的例子中，我使用了

# 创建文本分割器
text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=30)

RecursiveCharacterTextSplitter：此文本拆分器是推荐用于通用文本的拆分器。它通过一个字符列表参数化，并尝试按顺序在这些字符上拆分，直到块足够小。默认的字符列表是[“\n\n”, “\n”, " ", “”]。这样做的效果是尽可能长时间地保持所有段落（然后是句子，然后是单词）在一起，因为这些通常看起来是最具有语义相关性的文本部分。它不仅基于一系列预设的字符进行拆分，而且能够递归地处理文本，确保按照给定的chunk_size（块大小）和chunk_overlap（块重叠）参数优化拆分结果。这种方法特别适用于需要保持文本内在结构和语义连贯性的场景，如处理段落、句子等结构化文本。

合理地分割文档需要考虑以下因素：

块大小：块的大小应该适中，既要足够小以适应模型的上下文长度限制，又要足够大以包含足够的信息。通常，块的大小在几百个单词左右。
语义完整性：分割时应尽量保持每个块内的语义完整性。这意味着应该避免将一个句子或一个概念分割到两个不同的块中。
重复内容：在分割时应该避免在不同的块中重复相同的内容，除非这是文档结构的一部分（例如，法律文件中的条款可能会在多个部分重复）。
文档结构：考虑文档的结构，如章节、子章节、段落等，可以帮助确定分割点。通常，可以在章节或段落边界处进行分割。
关键词和实体：在分割时，可以考虑文档中的关键词和实体，确保它们不会被分割到不同的块中，以便在检索时能够准确地匹配到相关信息。

总之，合理地分割文档是构建高效、准确的RAG AI助手的关键步骤之一。通过考虑文档的内容、结构和模型的限制，可以创建出既高效又准确的文档分割策略。这个过程是不断调试的过程。为了更加贴合中文文档的格式，我们可以尝试使用重写过的切分器：

from langchain.text_splitter import CharacterTextSplitter
import re
from typing import List

#该方案出自qanyting开源项目

class ChineseTextSplitter(CharacterTextSplitter):
    
    def __init__(self, pdf: bool = False, sentence_size: int = 100, **kwargs):
        super().__init__(**kwargs)
        self.pdf = pdf
        self.sentence_size = sentence_size

    def split_text(self, text: str) -> List[str]:
        if self.pdf:
            text = re.sub(r"\n{3,}", r"\n", text)
            text = re.sub('\s', " ", text)
            text = re.sub("\n\n", "", text)

        text = re.sub(r'([;；.!?。！？?])([^”’])', r"\1\n\2", text)  # 单字符断句符
        text = re.sub(r'(.{6})([^"’”」』])', r"\1\n\2", text)  # 英文省略号
        text = re.sub(r'(\…{2})([^"’”」』])', r"\1\n\2", text)  # 中文省略号
        text = re.sub(r'([;；!?。！？?]["’”」』]{0,2})([^;；!?，。！？?])', r'\1\n\2', text)
        # 如果双引号前有终止符，那么双引号才是句子的终点，把分句符\n放到双引号后，注意前面的几句都小心保留了双引号
        text = text.rstrip()  # 段尾如果有多余的\n就去掉它
        # 很多规则中会考虑分号;，但是这里我把它忽略不计，破折号、英文双引号等同样忽略，需要的再做些简单调整即可。
        ls = [i for i in text.split("\n") if i]
        for ele in ls:
            if len(ele) > self.sentence_size:
                ele1 = re.sub(r'([,，.]["’”」』]{0,2})([^,，.])', r'\1\n\2', ele)
                ele1_ls = ele1.split("\n")
                for ele_ele1 in ele1_ls:
                    if len(ele_ele1) > self.sentence_size:
                        ele_ele2 = re.sub(r'([\n]{1,}| {2,}["’”」』]{0,2})([^\s])', r'\1\n\2', ele_ele1)
                        ele2_ls = ele_ele2.split("\n")
                        for ele_ele2 in ele2_ls:
                            if len(ele_ele2) > self.sentence_size:
                                ele_ele3 = re.sub('( ["’”」』]{0,2})([^ ])', r'\1\n\2', ele_ele2)
                                ele2_id = ele2_ls.index(ele_ele2)
                                ele2_ls = ele2_ls[:ele2_id] + [i for i in ele_ele3.split("\n") if i] + ele2_ls[
                                                                                                       ele2_id + 1:]
                        ele_id = ele1_ls.index(ele_ele1)
                        ele1_ls = ele1_ls[:ele_id] + [i for i in ele2_ls if i] + ele1_ls[ele_id + 1:]

                id = ls.index(ele)
                ls = ls[:id] + [i for i in ele1_ls if i] + ls[id + 1:]
        return ls

对比效果，几乎全做到了按照段落去切分

2. 对检索到的文档进行重新排序，并只为我们的LLM保留最相关的文档——为了做到这一点，我们使用重新排序（reranking）技术。

重排序模型，是能够针对一个查询和文档对，输出它们的相似度分数。我们利用这个分数对文档按照与查询的相关性进行重新排序。简单理解的意思就是：对embedding检索器出来的chunks再次通过重排序模型rerank按照分数排序后，筛选出相似度最高的chunks作为提示词输入。这也叫两阶段检索系统。

rerank模型与embedding模型的区别

	embedding模型	rerank模型

检索原理	1、把文档A向量化2、把问题B向量化3、对比问题B与文档A的向量值，检索出值与B问题类似的文档，并得出分数	1、将查询和某个文档直接输入到Transformer中，进行一整个推理步骤，并最终生成一个相似度分数。
优点	检索速度快	准确性高，1v1的vip服务，能更准确理解上下文的意思
缺点	准确性低，将高维的文本数据压缩到较低维度的向量空间中，这无疑导致了信息的丢失。此外，由于查询是在收到后才知道的，对查询的上下文一无所知（我们是在用户提出查询之前就已经创建了嵌入）。	检索速度慢
总结：Embedding模型可以提供有用的信息（粗排），但Rerankers模型通过考虑更多的上下文信息、用户意图和复杂的特征交互，能够提供更精确的排序结果（细排）。在实际应用中，这两种模型通常是互补的，结合使用可以提高整个信息检索系统的性能。

rerank模型有：

模型名称	Reranking	平均
bge-reranker-base	57.78	57.78
bge-reranker-large	59.69	59.69
bce-reranker-base_v1	60.06	60.06

模型可以在魔搭社区下载

代码示例

import os
from typing import List

import nltk
from langchain_community.document_loaders import UnstructuredWordDocumentLoader
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter
from pypinyin import pinyin, Style

from LlmClient import LlmClient
from RerankModel import RerankerModel
from configs import rerank_model_path, embedding_path, filepath
from splitter.chinese_text_splitter import ChineseTextSplitter

nltk_data_path = os.path.join(os.path.dirname(os.path.dirname(os.path.abspath(__file__))), 'zhipu_chat/nltk_data')
nltk.data.path.insert(0, nltk_data_path)

# 创建嵌入模型
embeddings = HuggingFaceEmbeddings(model_name=embedding_path)

# 获取文件名
file_name = os.path.basename(filepath)
# 将文件名转换为拼音
pinyin_names = pinyin(file_name, style=Style.NORMAL)
# 生成数据库id
kb_id = ''.join([item[0] for item in pinyin_names]).replace('.', '_')

faiss_index_path = os.path.join(os.path.dirname(os.path.abspath(__file__)), kb_id, 'faiss_index')


def merge_splits(docs) -> List:
    new_docs = []
    for doc in docs:
        if not new_docs:
            new_docs.append(doc)
        else:
            last_doc = new_docs[-1]
            if len(last_doc.page_content) + len(doc.page_content) < 200:
                last_doc.page_content += '\n' + doc.page_content
            else:
                new_docs.append(doc)
    splitter = RecursiveCharacterTextSplitter(
        separators=["\n\n", "\n", "。", "!", "！", "?", "？", "；", ";", "……", "…", "、", "，", ",", " ", ""],
        chunk_size=400,
        chunk_overlap=100,
    )
    end_docs = splitter.split_documents(new_docs)
    return end_docs


if os.path.exists(faiss_index_path):
    print("Index loaded from：", faiss_index_path)
    index = FAISS.load_local(folder_path=faiss_index_path, embeddings=embeddings, allow_dangerous_deserialization=True)
else:
    loader = UnstructuredWordDocumentLoader(filepath)

    # 创建文本分割器
    text_splitter = ChineseTextSplitter()
    # 分割文本
    splits = loader.load_and_split(text_splitter)
    # 再次分割处理
    splits = merge_splits(splits)
    # 创建索引
    index = FAISS.from_texts(
        texts=[doc.page_content for doc in splits],
        embedding=embeddings
    )
    # 保存索引
    index.save_local(folder_path=faiss_index_path)
    print("Index saved to：", faiss_index_path)

# 基于问题检索出类似的文档段落，喂给llm，llm经过推理后获取答案
llm_client = LlmClient()
while True:
    user_input = input("请输入文字，按回车键确认：")
    # 检查用户是否想要退出
    if user_input.lower() == 'exit':
        print("程序退出。")
        break
    # 执行相似性搜索，并返回与给定查询最相似的前k个结果。
    doc_score = index.similarity_search_with_score(user_input, k=30)

    for doc, score in doc_score:
        doc.metadata['score'] = score
    docs = [doc for doc, score in doc_score]
    retrieval_documents = sorted(docs, key=lambda x: x.metadata['score'], reverse=True)

    reranker_model = RerankerModel(rerank_model_path)

    scores = reranker_model.score_pairs([(user_input, doc.page_content) for doc in retrieval_documents])
    for doc, score in zip(retrieval_documents, scores):
        doc.metadata['reranker_score'] = score.tolist()
    # 排序
    rerank_documents = sorted(retrieval_documents, key=lambda x: x.metadata['reranker_score'], reverse=True)
    # 删除分数小于0.35的文档
    rerank_documents = [doc for doc in rerank_documents if doc.metadata['reranker_score'] > 0.35]

    # 只拿前面7个
    rerank_documents = retrieval_documents[: 7]

    # 调用llm优化提示词
    llm_client.query(prompt=';'.join(doc.page_content for doc in rerank_documents),
                     user_input=user_input)

    # 调用llm回答
    llm_client.query(prompt=';'.join(doc.page_content for doc in rerank_documents),
                     user_input=user_input)

下面我们再来问问：提供了那些岗位？

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏，我花2万买的大模型学习资料免费共享给你们，来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己整理的大模型视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

在这里插入图片描述

（都打包成一块的了，不能一一展开，总共300多集）

因篇幅有限，仅展示部分资料，需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档，有几百本，都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

大飞攻城狮

关注

8
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
简易指南：迅速构建个性化RAG（Retrieval-Augmented Generation）应用

前面的章节，我们已经完成了可用的基于知识库回答的ai助手，尽管RAG容易上手，但是要真正掌握其精髓却颇有难度，实际上，建立一个的有效的RAG系统不仅仅是将文档放入向量数据库并叠加一个llm模型那么简单，这种方式知识时而有效而已。比如我们问些复杂点问题：可以看llm的回答的确是相当不如意，提示词的内容并不全面。在揭开解决方案的神秘面纱之前，我们先来探索一下这个问题的核心。想象一下，你有一个巨大的图书馆，里面有数十亿本书，而你的任务是在这个图书馆中找到与你的研究主题最相关的资料。
复制链接

扫一扫