DeepSeek R1与Qwen大模型,构建Agentic RAG全攻略

大家好,DeepSeek-R1作为一款极具变革意义的开源推理大语言模型(LLM),大家讨论最多的是它的基础能力,却鲜有人关注其在智能体工作流程中的巨大潜力,也就是多个模型动态协作的应用场景。

本文将介绍如何搭建一个智能体检索增强生成(RAG,Retrieval-Augmented Generation)系统。这个系统整合了DeepSeek-R1(70亿参数蒸馏版)、阿里云Qwen2.5(70亿参数)和轻量级智能体框架。DeepSeek-R1用于复杂推理,是系统的 “智慧大脑”;阿里云Qwen2.5主打快速对话交互,让用户交流体验更流畅;轻量级智能体框架协调前两者,保障系统高效运转。完成搭建后,Qwen 会处理常规交互,复杂查询则交给R1。

1.设置环境

1.1 设置虚拟环境并安装依赖项

python3 -m venv .envs/agentic-ai
source .envs/agentic-ai/bin/activate
mkdir agentic-ai 
cd agentic-ai

pip install langchain langchain-huggingface langchain-community pypdf langchain_chroma
pip install chromadb smolagents python-dotenv gradio sentence-transformers
pip 'install smolagents[openai]' 

1.2 配置Ollama

DeepSeek的第一代推理模型性能可与OpenAI-o1媲美,其中包括基于Llama和Qwen从DeepSeek-R1蒸馏得到的6个密集模型。

Qwen 2.5模型在阿里巴巴最新的大规模数据集上进行预训练,该数据集包含多达18万亿个标记。该模型支持多达12.8万个标记,并具备多语言能力。

下载模型:

ollama pull deepseek-r1:7b  
ollama pull qwen2.5:7b-instruct

Ollama默认的2048个标记不够用,创建自定义模型文件deepseek-r1-7b-8k.Modelfileqwen2.5-7b-instruct-8k.Modelfile

$ cat deepseek-r1-7b-8k.Modelfile 
FROM deepseek-r1:7b 
PARAMETER num_ctx 8192

$ cat qwen2.5-7b-instruct-8k.Modelfile
FROM qwen2.5:7b-instruct  
PARAMETER num_ctx 8192
ollama create deepseek-r1-7b-8k -f ./deepseek-r1-7b-8k.Modelfile
ollama create qwen2.5:7b-instruct-8k -f ./qwen2.5-7b-instruct-8k.Modelfile

2.创建知识库

2.1 添加文档

将PDF文件放在data/目录下,这些文件将构成知识库的基础。使用LangChain的DirectoryLoader加载PDF文件,并使用RecursiveCharacterTextSplitter将其拆分为较小的块,以便进行高效的索引和检索。这样能确保内容以结构化方式处理,更便于查询和管理。

from langchain_community.document_loaders import DirectoryLoader, PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
import os
import shutil

def load_and_process_pdfs(data_dir: str):
    """从目录加载PDF并拆分为块。"""
    loader = DirectoryLoader(
        data_dir,
        glob="**/*.pdf",
        loader_cls=PyPDFLoader
    )
    documents = loader.load()

    # 将文档拆分为块
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=200,
        length_function=len,
    )
    chunks = text_splitter.split_documents(documents)
    return chunks

2.2 将块存储在向量存储(Chroma)中

将PDF处理并拆分为块后,存储在Chroma向量存储中,以便基于语义相似性进行高效的搜索和检索。初始化并配置ChromaDB,然后使用Hugging Face Embeddings将每个块转换为向量表示,从而实现相关信息的准确快速检索。

def create_vector_store(chunks, persist_dir: str):
    """创建并持久化Chroma向量存储。"""
    # 如果存在现有向量存储,则删除
    if os.path.exists(persist_dir):
        print(f"正在从 {persist_dir} 删除现有向量存储")
        shutil.rmtree(persist_dir)

    # 初始化HuggingFace嵌入
    embedding_model = HuggingFaceEmbeddings(
        model_name="sentence-transformers/all-mpnet-base-v2",
        model_kwargs={'device': 'cpu'}
    )

    # 构建并持久化新的Chroma向量存储
    print("正在构建并保存新的向量存储...")
    vector_db = Chroma.from_documents(
        documents=chunks,
        embedding=embedding_model,
        persist_directory=persist_dir
    )
    return vector_db

2.3 完成知识库创建

块已在ChromaDB中建立索引并存储后,知识库就可以进行查询了。运行最后一个代码块,加载并处理PDF文件,创建向量存储,并基于语义相似性实现相关上下文的高效检索。

def main():
    # 定义输入数据和向量数据库的路径
    input_data_dir = os.path.join(os.path.dirname(__file__), "data")
    vector_db_dir = os.path.join(os.path.dirname(__file__), "chroma_db")

    # 加载PDF并拆分为较小的块
    print("开始处理PDF...")
    document_chunks = load_and_process_pdfs(input_data_dir)
    print(f"从PDF生成了 {len(document_chunks)} 个文档块")

    # 构建并存储向量数据库
    print("正在构建向量存储...")
    vector_db = create_vector_store(document_chunks, vector_db_dir)
    print(f"向量存储已成功创建并保存到 {vector_db_dir}")

if __name__ == "__main__":
    main()

运行:

$ python ingest_pdfs.py  
开始处理PDF...
从PDF生成了312个文档块
正在构建向量存储...
向量存储已成功创建并保存到./agentic-ai/chroma_db
$ ls chroma_db 
chroma.sqlite3                       d4c48cab-0467-4ca8-ad42-bafa5eb83040
$

3.构建智能体系统

3.1 定义推理模型(DeepSeek-R1)

在智能体系统里,推理模型是 “心脏”。DeepSeek-R1 作为强大的推理模型,能够处理复杂查询。它可解析自然语言,结合知识库给出连贯且切题的回答,还能理解文档并提取关键知识。将 DeepSeek-R1 和知识库融合,系统便能依据向量数据库内容解决问题、回应查询以及推理。

推理时,DeepSeek-R1 支持多步迭代,不断优化回复,直至得到满意答案,或达到预设的max_steps限制,以此确保推理准确又高效,推动智能体系统稳定运行。

# reasoning_model.py
from smolagents import OpenAIServerModel, CodeAgent
import os

# 定义本地模型名称
reasoning_model_id = "deepseek-r1-7b-8k"# 使用DeepSeek进行推理

def get_model(model_id):
    """返回一个Ollama模型。"""
    return OpenAIServerModel(
        model_id=model_id,
        api_base="http://localhost:11434/v1",  # Ollama API端点
        api_key="ollama"
    )

# 使用DeepSeek创建推理模型
reasoning_model = get_model(reasoning_model_id)

# 创建推理智能体
reasoner = CodeAgent(tools=[], model=reasoning_model, add_base_tools=False, max_steps=2)

3.2 创建RAG工具

这一步创建RAG(检索增强生成)工具,该工具结合信息检索和推理来回答用户查询。该工具利用向量数据库(Chroma)通过嵌入存储和检索相关文档。当用户提出问题时,该工具会从数据库中搜索最相关的3个文档。然后,这些文档将作为上下文,促使推理模型(DeepSeek-R1)生成相关且简洁的答案。

这种方法通过将文档检索与推理相结合,提高了系统提供准确、有上下文感知答案的能力,适用于复杂或定义不明确的查询。

# rag_tool.py
from langchain_chroma import Chroma
from langchain_huggingface import HuggingFaceEmbeddings
from reasoning_model import reasoner  # 从reasoning_model.py导入reasoner
import os

# 初始化向量存储和嵌入
embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-mpnet-base-v2",
    model_kwargs={'device': 'cpu'}
)

# 向量数据库目录
db_dir = os.path.join(os.path.dirname(__file__), "chroma_db")

# 初始化向量存储
vectordb = Chroma(persist_directory=db_dir, embedding_function=embeddings)


def rag_with_reasoner(user_query: str) -> str:
    """
    在向量数据库中搜索相关上下文,并使用推理模型生成回复。

    参数:
        user_query:用户的问题。
    """
    # 检索相关文档
    docs = vectordb.similarity_search(user_query, k=3)
    context = "\n\n".join(doc.page_content for doc in docs)

    # 为推理模型创建提示
    prompt = f"""根据以下上下文,简洁地回答用户的问题。
    如果信息不足,请为RAG提出更好的查询建议。

上下文:
{context}

问题:{user_query}

答案:"""

    # 使用reasoner(DeepSeek-R1)生成回复
    response = reasoner.run(prompt, reset=False)
    return response

3.3 配置主智能体(Qwen)

主智能体(Qwen)是系统与用户交互和处理查询的主要接口。主智能体使用Qwen模型(Qwen-2.5:7b)来解释用户输入,并调用适当的工具生成回复。

# primary_agent.py
from smolagents import OpenAIServerModel, ToolCallingAgent
from rag_tool import rag_with_reasoner  # 从rag_tool.py导入工具函数
import os

def get_model(model_id):
    """返回一个Ollama模型。"""
    return OpenAIServerModel(
        model_id=model_id,
        api_base="http://localhost:11434/v1",  # Ollama API端点
        api_key="ollama"
    )

# 加载工具模型(Qwen-2.5:7b)
primary_model = get_model("qwen2.5:7b-instruct-8k")

# 使用Qwen创建主智能体以生成工具回复
primary_agent = ToolCallingAgent(tools=[rag_with_reasoner], model=primary_model, add_base_tools=False, max_steps=3)

# 导出智能体以供应用程序使用
def get_primary_agent():
    return primary_agent

主智能体使用ToolCallingAgent类构建,该类使模型能够利用特定工具,即rag_with_reasoner工具。该工具从向量数据库中检索相关文档,并将其传递给推理模型(DeepSeek-R1)以生成回复。智能体配置为最多进行3步推理,确保它根据提供的上下文迭代并完善答案。

这种设置确保主智能体能够利用RAG过程,为用户查询提供智能且上下文相关的回复,同时控制推理循环的次数。它使系统能够精确高效地处理各种问题。

4.启动Gradio用户界面

启动Gradio用户界面,使用户能够与智能体系统进行交互。Gradio为主智能体创建了一个简单易用的界面。该界面允许用户输入查询,并接收由推理和RAG工具生成的回复。这一步将后端功能与可视化界面连接起来,使系统对用户来说可访问且具有交互性。

# app.py
from primary_agent import get_primary_agent
from smolagents import GradioUI

# 从primary_agent.py获取主智能体
primary_agent = get_primary_agent()

# 启动界面的主函数
def main():
    GradioUI(primary_agent).launch()

if __name__ == "__main__":
    main()

运行:

$ python app.py                                                                                                  
* 正在本地URL运行:http://127.0.0.1:7860

5.工作原理

用户输入:用户在Gradio界面提交问题,开启交互流程。

Qwen决策:作为主智能体的Qwen迅速判断,简单问题直接作答;复杂问题则调用RAG工具。

RAG工具运作:RAG工具从ChromaDB检索相关上下文,将分析任务委托给DeepSeek-R1。

生成回复:DeepSeek-R1生成见解,Qwen将其整合,给出最终回复。

6 改进方向与架构优势

系统可以进一步优化,在回退逻辑方面,当DeepSeek-R1置信度低时,自动触发网络搜索,补充信息。并且可以增加多跳查询,智能体可迭代优化查询,提升复杂问题处理能力。使用LangGraph集成,构建复杂工作流程,实现高效状态管理。

本系统由Qwen和DeepSeek-R1协同工作,Qwen保障速度,DeepSeek-R1提供深度。这种架构带来了明显优势:DeepSeek-R1仅处理复杂查询,资源利用高效;可轻松更换模型,如采用Llama-3作为主模型;便于添加网络搜索、计算器等工具。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

python慕遥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值