DeepSeek R1与Qwen大模型，构建Agentic RAG全攻略

本文链接：https://blog.csdn.net/csdn1561168266/article/details/147110754

大家好，DeepSeek-R1作为一款极具变革意义的开源推理大语言模型（LLM），大家讨论最多的是它的基础能力，却鲜有人关注其在智能体工作流程中的巨大潜力，也就是多个模型动态协作的应用场景。

本文将介绍如何搭建一个智能体检索增强生成（RAG，Retrieval-Augmented Generation）系统。这个系统整合了DeepSeek-R1（70亿参数蒸馏版）、阿里云Qwen2.5（70亿参数）和轻量级智能体框架。DeepSeek-R1用于复杂推理，是系统的 “智慧大脑”；阿里云Qwen2.5主打快速对话交互，让用户交流体验更流畅；轻量级智能体框架协调前两者，保障系统高效运转。完成搭建后，Qwen 会处理常规交互，复杂查询则交给R1。

1.设置环境

1.1 设置虚拟环境并安装依赖项

python3 -m venv .envs/agentic-ai
source .envs/agentic-ai/bin/activate
mkdir agentic-ai 
cd agentic-ai

pip install langchain langchain-huggingface langchain-community pypdf langchain_chroma
pip install chromadb smolagents python-dotenv gradio sentence-transformers
pip 'install smolagents[openai]'

1.2 配置Ollama

DeepSeek的第一代推理模型性能可与OpenAI-o1媲美，其中包括基于Llama和Qwen从DeepSeek-R1蒸馏得到的6个密集模型。

Qwen 2.5模型在阿里巴巴最新的大规模数据集上进行预训练，该数据集包含多达18万亿个标记。该模型支持多达12.8万个标记，并具备多语言能力。

下载模型：

ollama pull deepseek-r1:7b  
ollama pull qwen2.5:7b-instruct

Ollama默认的2048个标记不够用，创建自定义模型文件deepseek-r1-7b-8k.Modelfile和qwen2.5-7b-instruct-8k.Modelfile：

$ cat deepseek-r1-7b-8k.Modelfile 
FROM deepseek-r1:7b 
PARAMETER num_ctx 8192

$ cat qwen2.5-7b-instruct-8k.Modelfile
FROM qwen2.5:7b-instruct  
PARAMETER num_ctx 8192

ollama create deepseek-r1-7b-8k -f ./deepseek-r1-7b-8k.Modelfile
ollama create qwen2.5:7b-instruct-8k -f ./qwen2.5-7b-instruct-8k.Modelfile

2.创建知识库

2.1 添加文档

将PDF文件放在data/目录下，这些文件将构成知识库的基础。使用LangChain的DirectoryLoader加载PDF文件，并使用RecursiveCharacterTextSplitter将其拆分为较小的块，以便进行高效的索引和检索。这样能确保内容以结构化方式处理，更便于查询和管理。

from langchain_community.document_loaders import DirectoryLoader, PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
import os
import shutil

def load_and_process_pdfs(data_dir: str):
    """从目录加载PDF并拆分为块。"""
    loader = DirectoryLoader(
        data_dir,
        glob="**/*.pdf",
        loader_cls=PyPDFLoader
    )
    documents = loader.load()

    # 将文档拆分为块
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=200,
        length_function=len,
    )
    chunks = text_splitter.split_documents(documents)
    return chunks

2.2 将块存储在向量存储（Chroma）中

将PDF处理并拆分为块后，存储在Chroma向量存储中，以便基于语义相似性进行高效的搜索和检索。初始化并配置ChromaDB，然后使用Hugging Face Embeddings将每个块转换为向量表示，从而实现相关信息的准确快速检索。

def create_vector_store(chunks, persist_dir: str):
    """创建并持久化Chroma向量存储。"""
    # 如果存在现有向量存储，则删除
    if os.path.exists(persist_dir):
        print(f"正在从 {persist_dir} 删除现有向量存储")
        shutil.rmtree(persist_dir)

    # 初始化HuggingFace嵌入
    embedding_model = HuggingFaceEmbeddings(
        model_name="sentence-transformers/all-mpnet-base-v2",
        model_kwargs={'device': 'cpu'}
    )

    # 构建并持久化新的Chroma向量存储
    print("正在构建并保存新的向量存储...")
    vector_db = Chroma.from_documents(
        documents=chunks,
        embedding=embedding_model,
        persist_directory=persist_dir
    )
    return vector_db

2.3 完成知识库创建

块已在ChromaDB中建立索引并存储后，知识库就可以进行查询了。运行最后一个代码块，加载并处理PDF文件，创建向量存储，并基于语义相似性实现相关上下文的高效检索。

def main():
    # 定义输入数据和向量数据库的路径
    input_data_dir = os.path.join(os.path.dirname(__file__), "data")
    vector_db_dir = os.path.join(os.path.dirname(__file__), "chroma_db")

    # 加载PDF并拆分为较小的块
    print("开始处理PDF...")
    document_chunks = load_and_process_pdfs(input_data_dir)
    print(f"从PDF生成了 {len(document_chunks)} 个文档块")

    # 构建并存储向量数据库
    print("正在构建向量存储...")
    vector_db = create_vector_store(document_chunks, vector_db_dir)
    print(f"向量存储已成功创建并保存到 {vector_db_dir}")

if __name__ == "__main__":
    main()

运行：

$ python ingest_pdfs.py  
开始处理PDF...
从PDF生成了312个文档块
正在构建向量存储...
向量存储已成功创建并保存到./agentic-ai/chroma_db
$ ls chroma_db 
chroma.sqlite3                       d4c48cab-0467-4ca8-ad42-bafa5eb83040
$

3.构建智能体系统

3.1 定义推理模型（DeepSeek-R1）

在智能体系统里，推理模型是 “心脏”。DeepSeek-R1 作为强大的推理模型，能够处理复杂查询。它可解析自然语言，结合知识库给出连贯且切题的回答，还能理解文档并提取关键知识。将 DeepSeek-R1 和知识库融合，系统便能依据向量数据库内容解决问题、回应查询以及推理。

推理时，DeepSeek-R1 支持多步迭代，不断优化回复，直至得到满意答案，或达到预设的max_steps限制，以此确保推理准确又高效，推动智能体系统稳定运行。

# reasoning_model.py
from smolagents import OpenAIServerModel, CodeAgent
import os

# 定义本地模型名称
reasoning_model_id = "deepseek-r1-7b-8k"# 使用DeepSeek进行推理

def get_model(model_id):
    """返回一个Ollama模型。"""
    return OpenAIServerModel(
        model_id=model_id,
        api_base="http://localhost:11434/v1",  # Ollama API端点
        api_key="ollama"
    )

# 使用DeepSeek创建推理模型
reasoning_model = get_model(reasoning_model_id)

# 创建推理智能体
reasoner = CodeAgent(tools=[], model=reasoning_model, add_base_tools=False, max_steps=2)

3.2 创建RAG工具

这一步创建RAG（检索增强生成）工具，该工具结合信息检索和推理来回答用户查询。该工具利用向量数据库（Chroma）通过嵌入存储和检索相关文档。当用户提出问题时，该工具会从数据库中搜索最相关的3个文档。然后，这些文档将作为上下文，促使推理模型（DeepSeek-R1）生成相关且简洁的答案。

这种方法通过将文档检索与推理相结合，提高了系统提供准确、有上下文感知答案的能力，适用于复杂或定义不明确的查询。

# rag_tool.py
from langchain_chroma import Chroma
from langchain_huggingface import HuggingFaceEmbeddings
from reasoning_model import reasoner  # 从reasoning_model.py导入reasoner
import os

# 初始化向量存储和嵌入
embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-mpnet-base-v2",
    model_kwargs={'device': 'cpu'}
)

# 向量数据库目录
db_dir = os.path.join(os.path.dirname(__file__), "chroma_db")

# 初始化向量存储
vectordb = Chroma(persist_directory=db_dir, embedding_function=embeddings)


def rag_with_reasoner(user_query: str) -> str:
    """
    在向量数据库中搜索相关上下文，并使用推理模型生成回复。

    参数：
        user_query：用户的问题。
    """
    # 检索相关文档
    docs = vectordb.similarity_search(user_query, k=3)
    context = "\n\n".join(doc.page_content for doc in docs)

    # 为推理模型创建提示
    prompt = f"""根据以下上下文，简洁地回答用户的问题。
    如果信息不足，请为RAG提出更好的查询建议。

上下文：
{context}

问题：{user_query}

答案："""

    # 使用reasoner（DeepSeek-R1）生成回复
    response = reasoner.run(prompt, reset=False)
    return response

3.3 配置主智能体（Qwen）

主智能体（Qwen）是系统与用户交互和处理查询的主要接口。主智能体使用Qwen模型（Qwen-2.5:7b）来解释用户输入，并调用适当的工具生成回复。

# primary_agent.py
from smolagents import OpenAIServerModel, ToolCallingAgent
from rag_tool import rag_with_reasoner  # 从rag_tool.py导入工具函数
import os

def get_model(model_id):
    """返回一个Ollama模型。"""
    return OpenAIServerModel(
        model_id=model_id,
        api_base="http://localhost:11434/v1",  # Ollama API端点
        api_key="ollama"
    )

# 加载工具模型（Qwen-2.5:7b）
primary_model = get_model("qwen2.5:7b-instruct-8k")

# 使用Qwen创建主智能体以生成工具回复
primary_agent = ToolCallingAgent(tools=[rag_with_reasoner], model=primary_model, add_base_tools=False, max_steps=3)

# 导出智能体以供应用程序使用
def get_primary_agent():
    return primary_agent

主智能体使用ToolCallingAgent类构建，该类使模型能够利用特定工具，即rag_with_reasoner工具。该工具从向量数据库中检索相关文档，并将其传递给推理模型（DeepSeek-R1）以生成回复。智能体配置为最多进行3步推理，确保它根据提供的上下文迭代并完善答案。

这种设置确保主智能体能够利用RAG过程，为用户查询提供智能且上下文相关的回复，同时控制推理循环的次数。它使系统能够精确高效地处理各种问题。

4.启动Gradio用户界面

启动Gradio用户界面，使用户能够与智能体系统进行交互。Gradio为主智能体创建了一个简单易用的界面。该界面允许用户输入查询，并接收由推理和RAG工具生成的回复。这一步将后端功能与可视化界面连接起来，使系统对用户来说可访问且具有交互性。

# app.py
from primary_agent import get_primary_agent
from smolagents import GradioUI

# 从primary_agent.py获取主智能体
primary_agent = get_primary_agent()

# 启动界面的主函数
def main():
    GradioUI(primary_agent).launch()

if __name__ == "__main__":
    main()

运行：

$ python app.py                                                                                                  
* 正在本地URL运行：http://127.0.0.1:7860

5.工作原理

用户输入：用户在Gradio界面提交问题，开启交互流程。

Qwen决策：作为主智能体的Qwen迅速判断，简单问题直接作答；复杂问题则调用RAG工具。

RAG工具运作：RAG工具从ChromaDB检索相关上下文，将分析任务委托给DeepSeek-R1。

生成回复：DeepSeek-R1生成见解，Qwen将其整合，给出最终回复。

6 改进方向与架构优势

系统可以进一步优化，在回退逻辑方面，当DeepSeek-R1置信度低时，自动触发网络搜索，补充信息。并且可以增加多跳查询，智能体可迭代优化查询，提升复杂问题处理能力。使用LangGraph集成，构建复杂工作流程，实现高效状态管理。

本系统由Qwen和DeepSeek-R1协同工作，Qwen保障速度，DeepSeek-R1提供深度。这种架构带来了明显优势：DeepSeek-R1仅处理复杂查询，资源利用高效；可轻松更换模型，如采用Llama-3作为主模型；便于添加网络搜索、计算器等工具。