知识图谱构建实战:GraphRAG与Neo4j的结合之道

前言

我们在前面讲解 GraphRag 从原始文本中提取知识图谱和构建图结构的时候,最后存储的文件是parquet 格式,文件存储在下面文件夹:

这节我们就探索一下怎么将我们生成好的图谱文件导入到我们的 Neo4j 图数据库,最后进行可视化分析,也能和我们之前的项目混合检索结合起来。

一、准备工作

新建一个 python 脚本文件,比如 graphrag_import.py 可以放在项目的根目录,这里可以随便选择,然后设置我们GraphRAG 生成的图谱文件目录:

  GRAPHRAG_FOLDER="artifacts"

安装 neo4j ,如果前面安装过,可以忽略:

  pip install --upgrade --quiet neo4j

导入我们需要的库:

import pandas as pd
from neo4j import GraphDatabase
import time

设置我们的 Neo4j 图库地址,账户密码,以及要导入的数据库名字:

NEO4J_URI="bolt://********:7687"
NEO4J_USERNAME="neo****"
NEO4J_PASSWORD="*****"
NEO4J_DATABASE="****"
driver = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))

下载一个语料数据集,https://www.gutenberg.org/cache/epub/24022/pg24022.txt

根目录新建 /ragtest/input 空文件,然后把下载好的语料文件放入 input 下面。

二、创建约束

定义一个批处理方法, 使用批处理方法将数据导入 Neo4j

参数:statement 是要执行的 Cypher 查询,df 是要导入的数据框,batch_size 是每批要导入的行数。

def batched_import(statement, df, batch_size=1000):
    total = len(df)
    start_s = time.time()
    for start in range(0,total, batch_size):
        batch = df.iloc[start: min(start+batch_size,total)]
        result = driver.execute_query("UNWIND $rows AS value " + statement,
                                      rows=batch.to_dict('records'),
                                      database_=NEO4J_DATABASE)
        print(result.summary
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我码玄黄

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值