大模型之RAG-基于向量检索的理论与实战，对比关键字检索方案

最新推荐文章于 2024-10-02 21:43:07 发布

AI大模型训练家

最新推荐文章于 2024-10-02 21:43:07 发布

阅读量1k

点赞数 7

文章标签：机器学习人工智能 AIGC agi 自然语言处理语言模型

本文链接：https://blog.csdn.net/weixin_42924914/article/details/142414085

版权

前言

RAG系列的讲解，我们之前和大家分享了RAG的流程、文档切分、基于关键字检索的方案。

在关键字检索的认识与实战一文中，我们讲到了基于关键字检索的局限性：关键字检索可能会受到一些问题的影响，例如同义词、拼写错误等，这可能会导致一些相关的文档被漏掉或者一些不相关的文档被检索到。

今天再来和大家一起分享基于向量检索的方案与实战，再结合关键字检索方案做一下多维度的对比。让我们对RAG的实现方案能够加深一些理解，在面对不同场景中，选择合适的方案。

向量检索的定义与原理

什么是向量

向量是一种有大小和方向的数学对象。它可以表示为从一个点到另一个点的有向线段。例如，二维空间中的向量可以表示为 (𝑥,𝑦)(𝑥,𝑦)，表示从原点 (0,0)(0,0) 到点 (𝑥,𝑦)(𝑥,𝑦) 的有向线段。

以此类推，我可以用一组坐标 (𝑥0,𝑥1,…,𝑥𝑁−1)(𝑥0,𝑥1,…,𝑥𝑁−1) 表示一个 𝑁𝑁 维空间中的向量，𝑁𝑁 叫向量的维度。

文本向量（Text Embeddings）

将文本转成一组 𝑁𝑁 维浮点数，即文本向量又叫 Embeddings
向量之间可以计算距离，距离远近对应语义相似度大小

文本向量是怎么得到的

构建相关（正立）与不相关（负例）的句子对儿样本
训练双塔式模型，让正例间的距离小，负例间的距离大

向量间的相似度计算

我们用检索关键词和一组文本的样例来看下效果

余弦距离和欧氏距离的核心逻辑

python代码解读复制代码def cos_sim(a, b):
    '''余弦距离 -- 越大越相似'''
    return dot(a, b)/(norm(a)*norm(b))


def l2(a, b):
    '''欧氏距离 -- 越小越相似'''
    x = np.asarray(a)-np.asarray(b)
    return norm(x)
    
def get_embeddings(texts, model="text-embedding-ada-002", dimensions=None):
    '''封装 OpenAI 的 Embedding 模型接口'''
    if model == "text-embedding-ada-002":
        dimensions = None
    if dimensions:
        data = client.embeddings.create(
            input=texts, model=model, dimensions=dimensions).data
    else:
        data = client.embeddings.create(input=texts, model=model).data
    return [x.embedding for x in data]
    
# query = "国际争端"

# 且能支持跨语言
query = "global conflicts"

documents = [
    "联合国就苏丹达尔富尔地区大规模暴力事件发出警告",
    "土耳其、芬兰、瑞典与北约代表将继续就瑞典“入约”问题进行谈判",
    "日本岐阜市陆上自卫队射击场内发生枪击事件 3人受伤",
    "国家游泳中心（水立方）：恢复游泳、嬉水乐园等水上项目运营",
    "我国首次在空间站开展舱外辐射生物学暴露实验",
]

执行并输出结果

python代码解读复制代码query_vec = get_embeddings([query])[0]
doc_vecs = get_embeddings(documents)

print("Query与自己的余弦距离: {:.2f}".format(cos_sim(query_vec, query_vec)))
print("Query与Documents的余弦距离:")
for vec in doc_vecs:
    print(cos_sim(query_vec, vec))

print()

print("Query与自己的欧氏距离: {:.2f}".format(l2(query_vec, query_vec)))
print("Query与Documents的欧氏距离:")
for vec in doc_vecs:
    print(l2(query_vec, vec))

我们来看下执行的效果：

python代码解读复制代码Query与自己的余弦距离: 1.00
Query与Documents的余弦距离:
0.7622749944010915（越大越相似）
0.7563038106493584
0.7426665802579038
0.7079273699608006
0.7254355321045072

Query与自己的欧氏距离: 0.00
Query与Documents的欧氏距离:
0.6895288502682277（越小越相似）
0.6981349637998769
0.7174028746492277
0.7642939833636829
0.7410323668625171

向量数据库

向量数据库（Vector Database），也叫矢量数据库，主要用来存储和处理向量数据。

再结合刚才我们对向量定义的描述，图像、文本和音视频这种非结构化数据都可以通过某种变换或者嵌入学习转化为向量数据存储到向量数据库中，从而实现对图像、文本和音视频的相似性搜索和检索。

这意味着您可以使用向量数据库根据语义或上下文含义查找最相似或相关的数据，而不是使用基于精确匹配或预定义标准查询数据库的传统方法。也就是我们提到的关键字检索的局限性。
在这里插入图片描述

向量数据库的特点

这里我们为了方便使用向量数据库完成向量检索的方案，简单介绍下向量数据库的特点：

向量数据库的主要特点是高效存储与检索。利用索引技术和向量检索算法能实现高维大数据下的快速响应。向量数据库也是一种数据库，除了要管理向量数据外，还是支持对传统结构化数据的管理。实际使用时，有很多场景会同时对向量字段和结构化字段进行过滤检索，这对向量数据库来说也是一种挑战。

严格来说数据向量化本不属于向量数据库，但是数据向量化又是一项很重要的工作，为了流程的完整性暂且放进去。区别与传统数据库主要有以下几个地方不相同：数据向量化，向量检索和相似度计算。

chromadb的简单介绍

之所以介绍一下chromadb，下面我们的实战demo就是基于chromadb来实现。

Chroma的目标是帮助用户更加便捷地构建大模型应用，更加轻松的将知识（knowledge）、事实（facts）和技能（skills）等我们现实世界中的文档整合进大模型中。

Chroma提供的工具：

存储文档数据和它们的元数据：store embeddings and their metadata
嵌入：embed documents and queries
搜索： search embeddings

流向量数据库功能对比

由于大模型的火热，现在市面上的向量数据库众多，主流的向量数据库对比如下所示：

向量数据库	URL	GitHub Star	Language
chroma	github.com/chroma-core…	7.4K	Python
milvus	github.com/milvus-io/m…	21.5K	Go/Python/C++
pinecone	www.pinecone.io/	❌	❌
qdrant	github.com/qdrant/qdra…	11.8K	Rust
typesense	github.com/typesense/t…	12.9K	C++
weaviate	github.com/weaviate/we…	6.9K	Go

表格引用自：一文全面了解向量数据库的基本概念、原理、算法、选型

一个基于文档向量检索的RAG实战例子

我们再回顾RAG的基本流程，对照如下例子，大家就可以更好理解了

RAG系统搭建的基本流程

准备对应的垂域资料
文档的读取解析，进行文档切分
将分割好的文本灌入检索引擎（向量数据库）
封装检索接口
构建流程：Query -> 检索 -> Prompt -> LLM -> 回复
文档加载

python代码解读复制代码def extract_text_from_pdf(filename,page_numbers=None,min_line_length=10):
    """从 PDF 文件中（按指定页码）提取文字"""
    paragraphs = []
    buffer = ''
    full_text = ''
    # 提取全部文本
    for i, page_layout in enumerate(extract_pages(filename)):
        # 如果指定了页码范围，跳过范围外的页
        if page_numbers is not None and i not in page_numbers:
            continue
        for element in page_layout:
            if isinstance(element, LTTextContainer):
                full_text += element.get_text() + '\n'
    # 按空行分隔，将文本重新组织成段落
    lines = full_text.split('\n')
    for text in lines:
        if len(text) >= min_line_length:
            buffer += (' '+text) if not text.endswith('-') else text.strip('-')
        elif buffer:
            paragraphs.append(buffer)
            buffer = ''
    if buffer:
        paragraphs.append(buffer)
    return paragraphs

文档切割（交叠切割防止问题的答案跨两个片段，使上下文更完整）

python代码解读复制代码def split_text(paragraphs,chunk_size=300,overlap_size=100):
    """按指定 chunk_size 和 overlap_size 交叠割文本"""
    sentences = [s.strip() for p in paragraphs for s in sent_tokenize(p)]
    chunks = []
    i= 0
    while i < len(sentences):
        chunk = sentences[i]
        overlap = ''
        prev_len = 0
        prev = i - 1
        # 向前计算重叠部分
        while prev >= 0 and len(sentences[prev])+len(overlap) <= overlap_size:
            overlap = sentences[prev] + ' ' + overlap
            prev -= 1
        chunk = overlap+chunk
        next = i + 1
        # 向后计算当前chunk
        while next < len(sentences) and len(sentences[next])+len(chunk) <= chunk_size:
            chunk = chunk + ' ' + sentences[next]
            next += 1
        chunks.append(chunk)
        i = next
    return chunks

向量化（这里使用openai的向量化模型）

python代码解读复制代码def get_embedding(text, model="text-embedding-ada-002"):
    """封装 OpenAI 的 Embedding 模型接口"""
    return openai.Embedding.create(input=[text], model=model)['data'][0]['embedding']

灌入向量库（使用chromadb）

python代码解读复制代码def __init__(self, name="demo"):
        self.chroma_client = chromadb.Client(Settings(allow_reset=True))
        self.chroma_client.reset()
        self.name = name
        self.collection = self.chroma_client.get_or_create_collection(name=name)

def add_documents(self, documents):
        self.collection.add(
            embeddings=[get_embedding(doc) for doc in documents],
            documents=documents,
            metadatas=[{"source": self.name} for _ in documents],
            ids=[f"id_{i}" for i in range(len(documents))]
        )

检索向量数据库

python代码解读复制代码def search(self, query, top_n):
        """检索向量数据库"""
        results = self.collection.query(
            query_embeddings=[get_embedding(query)],
            n_results=top_n
        )
        return results['documents'][0]

将检索数据带入提示词

python代码解读复制代码def build_prompt(template=prompt_template, **kwargs):
    """将 Prompt 模板赋值"""
    prompt = template
    for k, v in kwargs.items():
        if isinstance(v, str):
            val = v
        elif isinstance(v, list) and all(isinstance(elem, str) for elem in v):
            val = '\n'.join(v)
        else:
            val = str(v)
        prompt = prompt.replace(f"__{k.upper()}__", val)
    return prompt

调用大模型

python代码解读复制代码def get_completion(prompt, context, model="gpt-3.5-turbo"):
    """封装 openai 接口"""
    messages = context + [{"role": "user", "content": prompt}]
    response = openai.ChatCompletion.create(
        model=model,
        messages=messages,
        temperature=0,  # 模型输出的随机性，0 表示随机性最小
    )
    return response.choices[0].message["content"]

向量检索与关键字检索的对比

维度	向量检索	关键字检索
检索方式	基于文档和查询之间的相似度计算来进行检索。文档和查询通常被表示为高维空间中的向量，通过计算它们之间的相似度来确定最相关的文档。	是通过匹配查询中的关键字与文档中的关键字来进行检索。当用户输入一个查询时，系统会在文档集合中查找包含这些关键字的文档，并将它们返回给用户。
表示方式	需要将文档和查询转换成向量形式，这通常通过词袋模型或词嵌入等技术实现，其中每个维度代表一个词汇项，而向量的值通常表示词频或TF-IDF权重。	不需要对文档和查询进行特殊的表示，而是直接基于文档中的关键字与查询中的关键字进行匹配。
匹配精度	通常能够提供更精确的匹配，因为它考虑了文档和查询之间的语义相似度，而不仅仅是关键字的匹配。	可能会受到一些问题的影响，例如同义词、拼写错误等，这可能会导致一些相关的文档被漏掉或者一些不相关的文档被检索到。
使用范围	通常在需要考虑语义相似度的情况下使用，例如在自然语言处理领域中的文档检索、语义搜索等方面。	更适合简单的检索场景，例如在搜索引擎中用户输入关键字进行网页检索。

总的来说，向量检索更适合处理复杂的语义匹配问题，而关键字检索则更适合简单的关键字匹配需求。

总结

本文的分享结束，也代表着我们对向量检索的RAG如何实现，向量化以及向量数据库，同时用一个实战的例子讲解了向量检索的RAG如何完成。

再结合之前的文章我们对于关键字检索的RAG的讲解，我们能够充分的了解RAG的两种实现方式，以及他们之间的对比。

RAG的核心在于检索增强，而检索增强的主要手段是知识库，我们引入外部知识库可以是ES类似的关键字检索，也可以是Chroma类似的向量检索。

RAG已经是AIGC当中热门又尤为重要的一个方向，希望我们对于我们提高我们大模型的性能有所帮助。

大模型资源分享

针对所有自学遇到困难的同学，我为大家系统梳理了大模型学习的脉络，并且分享这份LLM大模型资料：其中包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等。😝有需要的小伙伴，可以扫描下方二维码免费领取↓↓↓

在这里插入图片描述

一、全套 AGI 大模型学习路线

AI 大模型时代的精彩学习之旅：从根基铸就到前沿探索，牢牢掌握人工智能核心技能！

在这里插入图片描述

二、640 套 AI 大模型报告合集

此套涵盖 640 份报告的精彩合集，全面涉及 AI 大模型的理论研究、技术实现以及行业应用等诸多方面。无论你是科研工作者、工程师，还是对 AI 大模型满怀热忱的爱好者，这套报告合集都将为你呈上宝贵的信息与深刻的启示。

在这里插入图片描述

三、AI 大模型经典 PDF 书籍

伴随人工智能技术的迅猛发展，AI 大模型已然成为当今科技领域的一大热点。这些大型预训练模型，诸如 GPT-3、BERT、XLNet 等，凭借其强大的语言理解与生成能力，正在重塑我们对人工智能的认知。而以下这些 PDF 书籍无疑是极为出色的学习资源。
在这里插入图片描述

阶段 1：AI 大模型时代的基础认知

目标：深入洞悉 AI 大模型的基本概念、发展历程以及核心原理。
内容

：
- L1.1 人工智能概述与大模型起源探寻。
- L1.2 大模型与通用人工智能的紧密关联。
- L1.3 GPT 模型的辉煌发展历程。
- L1.4 模型工程解析。
- L1.4.1 知识大模型阐释。
- L1.4.2 生产大模型剖析。
- L1.4.3 模型工程方法论阐述。
- L1.4.4 模型工程实践展示。
- L1.5 GPT 应用案例分享。

阶段 2：AI 大模型 API 应用开发工程

目标：熟练掌握 AI 大模型 API 的运用与开发，以及相关编程技能。
内容
：
- L2.1 API 接口详解。
- L2.1.1 OpenAI API 接口解读。
- L2.1.2 Python 接口接入指南。
- L2.1.3 BOT 工具类框架介绍。
- L2.1.4 代码示例呈现。
- L2.2 Prompt 框架阐释。
- L2.2.1 何为 Prompt。
- L2.2.2 Prompt 框架应用现状分析。
- L2.2.3 基于 GPTAS 的 Prompt 框架剖析。
- L2.2.4 Prompt 框架与 Thought 的关联探讨。
- L2.2.5 Prompt 框架与提示词的深入解读。
- L2.3 流水线工程阐述。
- L2.3.1 流水线工程的概念解析。
- L2.3.2 流水线工程的优势展现。
- L2.3.3 流水线工程的应用场景探索。
- L2.4 总结与展望。

阶段 3：AI 大模型应用架构实践

目标：深刻理解 AI 大模型的应用架构，并能够实现私有化部署。
内容
：
- L3.1 Agent 模型框架解读。
- L3.1.1 Agent 模型框架的设计理念阐述。
- L3.1.2 Agent 模型框架的核心组件剖析。
- L3.1.3 Agent 模型框架的实现细节展示。
- L3.2 MetaGPT 详解。
- L3.2.1 MetaGPT 的基本概念阐释。
- L3.2.2 MetaGPT 的工作原理剖析。
- L3.2.3 MetaGPT 的应用场景探讨。
- L3.3 ChatGLM 解析。
- L3.3.1 ChatGLM 的特色呈现。
- L3.3.2 ChatGLM 的开发环境介绍。
- L3.3.3 ChatGLM 的使用示例展示。
- L3.4 LLAMA 阐释。
- L3.4.1 LLAMA 的特点剖析。
- L3.4.2 LLAMA 的开发环境说明。
- L3.4.3 LLAMA 的使用示例呈现。
- L3.5 其他大模型介绍。