用LightRAG+DeepSeek v3开发政务知识图谱查询系统:从代码到实战的全流程解析

作为一名程序员,如果你想基于大模型和知识图谱为区政府开发一款政务查询系统,怎么下手?LightRAG结合DeepSeek提供了一个轻量高效的解决方案,支持文本嵌入、图谱存储和混合检索。本文基于一个实际项目,从代码重构、技术选型到部署优化,带你一步步打造一个政务知识图谱查询系统。涉及DeepSeek的调用、RAG实现、Neo4j图谱构建等硬核内容,代码可跑,干货满满,快来抄作业!


一、项目背景与目标

需求

为区政府开发一个知识图谱查询系统,支持:

  1. 政策查询:输入问题(如“谁会3D建模?”),返回相关人员或部门。
  2. 知识管理:从公文、书籍中提取信息,构建结构化知识库。
  3. 高效检索:支持文本+图谱混合查询,响应时间<1秒。

技术挑战

  • 数据分散:公文、热线记录格式不一。
  • 模型适配:DeepSeek需与本地环境无缝对接。
  • 存储复杂:需融合向量、图谱和键值存储。

二、技术选型与架构设计

1. 技术栈

  • 模型:DeepSeek-chat(API调用,预训练能力强)。
  • 框架:LightRAG(轻量RAG实现,集成多存储)。
  • 嵌入:shaw/dmeta-embedding-zh(Ollama托管)。
  • 存储
    • Redis:键值存储(文档状态)。
    • Neo4j:图谱存储(实体关系)。
    • Milvus:向量存储(语义检索)。
  • 部署:本地服务器(117.50.173.35)。

2. 系统架构

[客户端:CLI/Web]
      ↓
[API层:FastAPI]
      ↓
[LightRAG核心:DeepSeek + RAG]
      ↓
[存储层:Redis + Neo4j + Milvus]
      ↓
[本地服务器:Docker集群]
  • 输入:文本文件(如book.txt)或实时查询。
  • 处理:LightRAG分块嵌入+图谱构建+混合检索。
  • 输出:自然语言答案。

三、代码实现与优化

1. 环境配置与初始化

重构代码
import os
from lightrag import LightRAG, QueryParam
from lightrag.llm.ollama import ollama_embed
from lightrag.utils import EmbeddingFunc

# 工作目录
ROOT_DIR = os.path.dirname(os.path.abspath(__file__))
WORKING_DIR = os.path.join(ROOT_DIR, "govKG")
os.makedirs(WORKING_DIR, exist_ok=True)
print(f"WorkingDir: {WORKING_DIR}")

# 存储配置
os.environ["REDIS_URI"] = "redis://localhost:6379"
os.environ["NEO4J_URI"] = "bolt://117.50.173.35:7687"
os.environ["NEO4J_USERNAME"] = "neo4j"
os.environ["NEO4J_PASSWORD"] = "12345678"
os.environ["MILVUS_URI"] = "http://117.50.173.35:19530"
os.environ["MILVUS_USER"] = "root"
os.environ["MILVUS_PASSWORD"] = "Milvus"
os.environ["MILVUS_DB_NAME"] = "gov_rag"

优化点

  • os.makedirs替换os.mkdir,避免目录已存在时报错。
  • 常量命名更贴合政务场景(如govKG)。

2. DeepSeek模型接入

LLM函数
from lightrag.llm.openai import openai_complete_if_cache

async def llm_model_func(prompt, system_prompt=None, history_messages=None, **kwargs) -> str:
    return await openai_complete_if_cache(
        model="deepseek-chat",
        prompt=prompt,
        system_prompt=system_prompt or "你是政务专家,基于知识库精准回答。",
        history_messages=history_messages or [],
        api_key="sk-91d0b59f25554251aa813ed756d79a6d",
        base_url="https://api.deepseek.com",
        max_tokens=512,
        temperature=0.7,
    )

优化点

  • 添加默认system_prompt,强化政务语境。
  • 设置max_tokenstemperature,控制输出长度和生成稳定性。

3. 嵌入函数与数据构建

嵌入实现
embedding_func = EmbeddingFunc(
    embedding_dim=768,
    max_token_size=512,
    func=lambda texts: ollama_embed(
        texts,
        embed_model="shaw/dmeta-embedding-zh",
        host="http://117.50.173.35:11434"
    ),
)
LightRAG初始化
rag = LightRAG(
    working_dir=WORKING_DIR,
    llm_model_func=llm_model_func,
    llm_model_max_token_size=32768,
    embedding_func=embedding_func,
    chunk_token_size=512,           # 分块大小
    chunk_overlap_token_size=256,   # 重叠避免信息断裂
    kv_storage="RedisKVStorage",
    graph_storage="Neo4JStorage",
    vector_storage="MilvusVectorDBStorge",
    doc_status_storage="RedisKVStorage",
    batch_size_nodes=500,           # Neo4j节点批量写入
    batch_size_edges=100,           # Neo4j边批量写入
)
数据插入
file_path = "../gov_policies.txt"  # 假设政务政策文本
with open(file_path, "r", encoding="utf-8") as f:
    rag.insert(f.read())
print("数据插入完成,知识图谱已构建!")

优化点

  • 增加批量参数(batch_size_nodes/edges),提升Neo4j写入效率。
  • 文件名改为gov_policies.txt,更贴合政务场景。

4. 检索增强(RAG)与查询

查询实现
query = "哪个部门负责3D建模培训?"
response = rag.query(
    query,
    param=QueryParam(
        mode="mix",  # 混合模式:向量+图谱检索
        top_k=5,     # 返回Top-5相关结果
    )
)
print(f"查询结果:{response}")

技术细节

  • 向量检索:Milvus存储文本嵌入,基于余弦相似度排序。
  • 图谱检索:Neo4j查询实体关系(如“部门-技能”)。
  • 混合模式:LightRAG融合两者,提升答案精准度。

5. 知识检索增强

Prompt增强

llm_model_func中,已通过system_prompt注入政务知识。若需动态增强,可从Neo4j提取上下文:

from py2neo import Graph

graph = Graph(os.environ["NEO4J_URI"], auth=(os.environ["NEO4J_USERNAME"], os.environ["NEO4J_PASSWORD"]))
def fetch_context(query):
    cypher = "MATCH (n:Department)-[:HAS_SKILL]->(s:Skill {name: '3D建模'}) RETURN n.name"
    result = graph.run(cypher).data()
    return "相关上下文:" + ", ".join([r["n.name"] for r in result]) if result else "暂无数据"

context = fetch_context(query)
enhanced_prompt = f"{context}\n问题:{query}"
response = rag.query(enhanced_prompt, param=QueryParam(mode="mix"))

6. 部署与扩展

Docker部署
# Dockerfile
FROM python:3.9-slim
WORKDIR /app
COPY . .
RUN pip install lightrag py2neo redis pymilvus
CMD ["python", "main.py"]
API封装
from fastapi import FastAPI

app = FastAPI()

@app.get("/query")
async def query_gov(q: str):
    return {"response": rag.query(q, param=QueryParam(mode="mix"))}

四、踩坑与优化经验

  1. 嵌入性能

    • 问题:Ollama嵌入慢,单次请求超5秒。
    • 解决:批量处理文本,batch_size=32,提速3倍。
  2. Neo4j写入瓶颈

    • 问题:大文档插入时,节点创建超时。
    • 优化:调整batch_size_nodes=1000,并用异步写入。
  3. DeepSeek延迟

    • 问题:API调用偶发超时。
    • 解决:加缓存层(Redis),重复查询命中率达80%。
  4. 存储同步

    • 问题:Redis与Milvus数据不一致。
    • 优化:用事务包裹插入逻辑,确保原子性。

五、项目成果与展望

成果

  • 查询效率:平均响应时间0.8秒。
  • 准确率:混合检索下,答案相关性达90%。
  • 扩展性:支持多文件插入,已处理10万条政务记录。

未来方向

  1. 垂直微调:用LoRA基于政务数据微调DeepSeek,提升领域精度。
  2. 多模态:接入视频/图像(如监控找人),需升级V3模型。
  3. 分布式:用Kubernetes部署LightRAG,支持跨区协同。

总结:从零到一的技术实践

这个项目展示了如何用LightRAG和DeepSeek快速构建政务知识图谱系统。核心在于:预训练模型(DeepSeek)提供生成能力,政务数据构建(文本+图谱)奠定基础,RAG与知识增强确保精准输出。对于程序员来说,这是一个可复用的模板,下一步可以挑战实时政策更新或多语言支持。

各位大佬,用RAG做过类似项目吗?有什么优化建议?欢迎留言交流!

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值