【大模型开发】基于 DeepSeek的检索式智能问答系统

最新推荐文章于 2025-03-22 10:33:54 发布

云博士的AI课堂

最新推荐文章于 2025-03-22 10:33:54 发布

阅读量1.1k

点赞数 29

分类专栏：大模型技术开发与实践哈佛博后带你玩转机器学习深度学习文章标签： deepseek 智能问答大模型开发机器学习深度学习

本文链接：https://blog.csdn.net/l35633/article/details/146247820

版权

哈佛博后带你玩转机器学习同时被 3 个专栏收录

247 篇文章

订阅专栏

大模型技术开发与实践

242 篇文章

订阅专栏

深度学习

186 篇文章

订阅专栏

以下内容将演示如何基于 DeepSeek 开源大模型，构建一个具备实际落地价值的智能问答系统（QA System）。内容包括核心实现思路、关键代码示例、详细讲解以及未来改进空间与研究方向，帮助读者快速上手并针对性地进行扩展。

背景与需求分析
系统架构设计
1. 系统流程概述
2. 模块划分
环境与依赖准备
数据预处理与向量检索索引构建
1. 数据分块（Chunking）
2. 向量化与索引构建
3. 检索功能实现
DeepSeek 大模型接入与推理
1. Prompt 构建
2. 生成式问答流程
完整代码示例与详细解释
未来改进空间与研究方向
1. 更优质的向量检索优化
2. 专业领域微调
3. 多模态扩展
4. 强化对话管理与安全审计
结语

1. 背景与需求分析

背景：随着预训练大模型（LLM）在多种自然语言任务上的性能爆发式提升，越来越多的企业或个人希望构建具有事实问答能力的系统。然而，直接依赖大模型内部存储的知识并不可靠，容易出现“幻觉”（Hallucination）现象。
需求：在保证生成式对话能力的同时，利用检索式框架获取外部知识库的信息，以获得更新、更准确、更可控的回答。DeepSeek 作为一款开源大模型，在中文及多语言场景下表现优异，适合在企业或研究环境中落地。

2. 系统架构设计

2.1 系统流程概述

向量数据库/检索：将外部文档或知识库进行分块并向量化，存储在向量索引中。
用户查询：用户输入问题文本。
检索相关文档：基于用户问题的向量表示，从索引中找到若干最相关文档片段。
DeepSeek 大模型生成：将用户问题 + 检索结果融合后，输入 DeepSeek 大模型进行推理，得到可读答案。
答案输出：将最终答案返回给用户，可选地带上引用文档或来源。

2.2 模块划分

数据预处理模块：实现文档清洗、分块（chunk）和向量化。
检索模块：基于向量搜索（如 Faiss、Milvus、ChromaDB 等）。
DeepSeek 推理模块：对外部知识库信息与用户输入进行融合后调用 DeepSeek 进行最终答案生成。
对话/问答接口模块：对外暴露 API 或 CLI，用于接收用户问题并返回答案。

3. 环境与依赖准备

下面是示例依赖，读者可根据实际系统需求和硬件条件进行调整：

pip install torch numpy pandas transformers sentence-transformers faiss-cpu

如果使用 GPU 环境并安装了 CUDA，可将 faiss-cpu 替换为 faiss-gpu。
若 DeepSeek 有特定依赖（如其官方提供的 Python 包或二进制文件），需一并安装。
若你使用 Milvus、ChromaDB 等，也需安装对应客户端库。

4. 数据预处理与向量检索索引构建

4.1 数据分块（Chunking）

为什么要分块：由于文档往往很长，直接向量化整个文档粒度会影响检索精度，也浪费计算资源。分块通常在 200~1000 tokens 范围内，根据文档结构可灵活调整。
分块策略：
1. 固定长度切分，如每 200~300 字为一片。
2. 语义分段，根据段落、标题等自然断点分割。

4.2 向量化与索引构建

示例中我们选用 sentence-transformers 的中文向量化模型进行嵌入，实际也可用 DeepSeek 自身提供的 Embedding 模块（若有），或其他高质量中文 Embedding 模型。

import os
import numpy as np
import faiss
import torch
from sentence_transformers import SentenceTransformer

# 示例：中文句向量模型，可以根据需求更换
model_name = "shibing624/text2vec-base-chinese"
embedding_model = SentenceTransformer(model_name)

# 预处理一些示例文档
documents = [
    "DeepSeek是一款开源大语言模型，支持多语言问答和自然语言推理。",
    "检索增强生成（RAG）技术可将外部知识库的检索结果与大模型结合。",
    "向量数据库如Faiss、Milvus可以帮助实现快速相似度搜索。",
    "在实际生产环境中，需要结合缓存与负载均衡以应对高并发。"
]

# 对文档做分块，这里只是简单演示不做复杂分段
chunk_size = 100
chunks = []
for doc in documents:
    if len(doc) <= chunk_size:
        chunks.append(doc)
    else:
        # 简单固定长度切分
        for i in range(0, len(doc), chunk_size):
            chunks.append(doc[i:i+chunk_size])

# 嵌入生成
chunk_embeddings = embedding_model.encode(chunks, convert_to_numpy=True)

# 建立 Faiss 索引
dimension = chunk_embeddings.shape[1]
index = faiss.IndexFlatIP(dimension)  # 使用内积检索
index.add(chunk_embeddings)

print(f"已建立索引，共有 {index.ntotal} 个向量。")

4.3 检索功能实现

封装一个简单的检索函数，通过向量化查询并在 Faiss 中搜索最相似的若干文档片段：

def search_similar_docs(query, top_k=2):
    query_vec = embedding_model.encode([query], convert_to_numpy=True)
    distances, indices = index.search(query_vec, top_k)
    results = []
    for dist, idx in zip(distances[0], indices[0]):
        results.append({
            "text": chunks[idx],
            "score": float(dist)
        })
    return results

5. DeepSeek 大模型接入与推理

注：本示例使用占位的调用函数 deepseek_generate 来模拟 DeepSeek 的推理过程，读者应根据 DeepSeek 官方文档或其开源仓库提供的 API/接口将此替换为真实调用。

5.1 Prompt 构建

在构建 Prompt 时，我们常将检索到的文档内容与用户查询拼接起来，以便大模型进行生成式回答。
示例模板如下：

已知信息：
<检索到的文本1>
<检索到的文本2>
...

问题：<User Query>
请基于以上信息回答问题：

5.2 生成式问答流程

简单流程演示：

用户输入查询；
在 Faiss 中检索并返回相关文档；
构造 Prompt；
调用 DeepSeek 进行回答；
输出结果。

6. 完整代码示例与详细解释

以下是一个最简版的系统示例，将上述模块串联起来。请根据自身环境与 DeepSeek 实际使用方式进行微调。

import time

# 占位函数：模拟 DeepSeek 的生成调用
def deepseek_generate(prompt):
    """
    示例：在真实情况下，您应使用DeepSeek官方提供的API/SDK。
    这里仅返回一个合成回答，包含prompt信息。
    """
    # 模拟耗时
    time.sleep(1)
    return f"[DeepSeek回答]: 我已根据以下信息进行了推理 => {prompt}"

def ask_deepseek(query, top_k=2):
    # 1. 使用检索模块获取相关文本
    docs = search_similar_docs(query, top_k=top_k)
    
    # 2. 构造上下文
    retrieved_context = "\n".join([f"- {d['text']}" for d in docs])
    prompt = f"已知信息：\n{retrieved_context}\n\n问题：{query}\n请基于以上信息回答问题："

    # 3. 调用DeepSeek模型
    answer = deepseek_generate(prompt)
    return answer

# 测试一下
if __name__ == "__main__":
    user_query = "DeepSeek主要适合哪些场景？"
    response = ask_deepseek(user_query, top_k=2)
    print("用户问题：", user_query)
    print("模型回答：", response)

执行逻辑：

search_similar_docs(query, top_k)：将用户问题向量化，在 Faiss 索引中检索最相似的文本分块。
构造 Prompt：把检索到的文本内容放在“已知信息”部分，后面接上用户问题作为上下文。
deepseek_generate(prompt)：此处仅做模拟；在真实环境中，将 Prompt 传给 DeepSeek 模型 API，得到生成式回答。
返回最终答案：整合信息后输出给用户。