作为一名程序员,如果你想基于大模型和知识图谱为区政府开发一款政务查询系统,怎么下手?LightRAG结合DeepSeek提供了一个轻量高效的解决方案,支持文本嵌入、图谱存储和混合检索。本文基于一个实际项目,从代码重构、技术选型到部署优化,带你一步步打造一个政务知识图谱查询系统。涉及DeepSeek的调用、RAG实现、Neo4j图谱构建等硬核内容,代码可跑,干货满满,快来抄作业!
一、项目背景与目标
需求
为区政府开发一个知识图谱查询系统,支持:
- 政策查询:输入问题(如“谁会3D建模?”),返回相关人员或部门。
- 知识管理:从公文、书籍中提取信息,构建结构化知识库。
- 高效检索:支持文本+图谱混合查询,响应时间<1秒。
技术挑战
- 数据分散:公文、热线记录格式不一。
- 模型适配:DeepSeek需与本地环境无缝对接。
- 存储复杂:需融合向量、图谱和键值存储。
二、技术选型与架构设计
1. 技术栈
- 模型:DeepSeek-chat(API调用,预训练能力强)。
- 框架:LightRAG(轻量RAG实现,集成多存储)。
- 嵌入:shaw/dmeta-embedding-zh(Ollama托管)。
- 存储:
- Redis:键值存储(文档状态)。
- Neo4j:图谱存储(实体关系)。
- Milvus:向量存储(语义检索)。
- 部署:本地服务器(117.50.173.35)。
2. 系统架构
[客户端:CLI/Web]
↓
[API层:FastAPI]
↓
[LightRAG核心:DeepSeek + RAG]
↓
[存储层:Redis + Neo4j + Milvus]
↓
[本地服务器:Docker集群]
- 输入:文本文件(如book.txt)或实时查询。
- 处理:LightRAG分块嵌入+图谱构建+混合检索。
- 输出:自然语言答案。
三、代码实现与优化
1. 环境配置与初始化
重构代码
import os
from lightrag import LightRAG, QueryParam
from lightrag.llm.ollama import ollama_embed
from lightrag.utils import EmbeddingFunc
# 工作目录
ROOT_DIR = os.path.dirname(os.path.abspath(__file__))
WORKING_DIR = os.path.join(ROOT_DIR, "govKG")
os.makedirs(WORKING_DIR, exist_ok=True)
print(f"WorkingDir: {WORKING_DIR}")
# 存储配置
os.environ["REDIS_URI"] = "redis://localhost:6379"
os.environ["NEO4J_URI"] = "bolt://117.50.173.35:7687"
os.environ["NEO4J_USERNAME"] = "neo4j"
os.environ["NEO4J_PASSWORD"] = "12345678"
os.environ["MILVUS_URI"] = "http://117.50.173.35:19530"
os.environ["MILVUS_USER"] = "root"
os.environ["MILVUS_PASSWORD"] = "Milvus"
os.environ["MILVUS_DB_NAME"] = "gov_rag"
优化点:
- 用
os.makedirs
替换os.mkdir
,避免目录已存在时报错。 - 常量命名更贴合政务场景(如
govKG
)。
2. DeepSeek模型接入
LLM函数
from lightrag.llm.openai import openai_complete_if_cache
async def llm_model_func(prompt, system_prompt=None, history_messages=None, **kwargs) -> str:
return await openai_complete_if_cache(
model="deepseek-chat",
prompt=prompt,
system_prompt=system_prompt or "你是政务专家,基于知识库精准回答。",
history_messages=history_messages or [],
api_key="sk-91d0b59f25554251aa813ed756d79a6d",
base_url="https://api.deepseek.com",
max_tokens=512,
temperature=0.7,
)
优化点:
- 添加默认
system_prompt
,强化政务语境。 - 设置
max_tokens
和temperature
,控制输出长度和生成稳定性。
3. 嵌入函数与数据构建
嵌入实现
embedding_func = EmbeddingFunc(
embedding_dim=768,
max_token_size=512,
func=lambda texts: ollama_embed(
texts,
embed_model="shaw/dmeta-embedding-zh",
host="http://117.50.173.35:11434"
),
)
LightRAG初始化
rag = LightRAG(
working_dir=WORKING_DIR,
llm_model_func=llm_model_func,
llm_model_max_token_size=32768,
embedding_func=embedding_func,
chunk_token_size=512, # 分块大小
chunk_overlap_token_size=256, # 重叠避免信息断裂
kv_storage="RedisKVStorage",
graph_storage="Neo4JStorage",
vector_storage="MilvusVectorDBStorge",
doc_status_storage="RedisKVStorage",
batch_size_nodes=500, # Neo4j节点批量写入
batch_size_edges=100, # Neo4j边批量写入
)
数据插入
file_path = "../gov_policies.txt" # 假设政务政策文本
with open(file_path, "r", encoding="utf-8") as f:
rag.insert(f.read())
print("数据插入完成,知识图谱已构建!")
优化点:
- 增加批量参数(
batch_size_nodes/edges
),提升Neo4j写入效率。 - 文件名改为
gov_policies.txt
,更贴合政务场景。
4. 检索增强(RAG)与查询
查询实现
query = "哪个部门负责3D建模培训?"
response = rag.query(
query,
param=QueryParam(
mode="mix", # 混合模式:向量+图谱检索
top_k=5, # 返回Top-5相关结果
)
)
print(f"查询结果:{response}")
技术细节:
- 向量检索:Milvus存储文本嵌入,基于余弦相似度排序。
- 图谱检索:Neo4j查询实体关系(如“部门-技能”)。
- 混合模式:LightRAG融合两者,提升答案精准度。
5. 知识检索增强
Prompt增强
在llm_model_func
中,已通过system_prompt
注入政务知识。若需动态增强,可从Neo4j提取上下文:
from py2neo import Graph
graph = Graph(os.environ["NEO4J_URI"], auth=(os.environ["NEO4J_USERNAME"], os.environ["NEO4J_PASSWORD"]))
def fetch_context(query):
cypher = "MATCH (n:Department)-[:HAS_SKILL]->(s:Skill {name: '3D建模'}) RETURN n.name"
result = graph.run(cypher).data()
return "相关上下文:" + ", ".join([r["n.name"] for r in result]) if result else "暂无数据"
context = fetch_context(query)
enhanced_prompt = f"{context}\n问题:{query}"
response = rag.query(enhanced_prompt, param=QueryParam(mode="mix"))
6. 部署与扩展
Docker部署
# Dockerfile
FROM python:3.9-slim
WORKDIR /app
COPY . .
RUN pip install lightrag py2neo redis pymilvus
CMD ["python", "main.py"]
API封装
from fastapi import FastAPI
app = FastAPI()
@app.get("/query")
async def query_gov(q: str):
return {"response": rag.query(q, param=QueryParam(mode="mix"))}
四、踩坑与优化经验
-
嵌入性能
- 问题:Ollama嵌入慢,单次请求超5秒。
- 解决:批量处理文本,
batch_size=32
,提速3倍。
-
Neo4j写入瓶颈
- 问题:大文档插入时,节点创建超时。
- 优化:调整
batch_size_nodes=1000
,并用异步写入。
-
DeepSeek延迟
- 问题:API调用偶发超时。
- 解决:加缓存层(Redis),重复查询命中率达80%。
-
存储同步
- 问题:Redis与Milvus数据不一致。
- 优化:用事务包裹插入逻辑,确保原子性。
五、项目成果与展望
成果
- 查询效率:平均响应时间0.8秒。
- 准确率:混合检索下,答案相关性达90%。
- 扩展性:支持多文件插入,已处理10万条政务记录。
未来方向
- 垂直微调:用LoRA基于政务数据微调DeepSeek,提升领域精度。
- 多模态:接入视频/图像(如监控找人),需升级V3模型。
- 分布式:用Kubernetes部署LightRAG,支持跨区协同。
总结:从零到一的技术实践
这个项目展示了如何用LightRAG和DeepSeek快速构建政务知识图谱系统。核心在于:预训练模型(DeepSeek)提供生成能力,政务数据构建(文本+图谱)奠定基础,RAG与知识增强确保精准输出。对于程序员来说,这是一个可复用的模板,下一步可以挑战实时政策更新或多语言支持。
各位大佬,用RAG做过类似项目吗?有什么优化建议?欢迎留言交流!