记录开源知识图谱ownthink导入过程-文中文件已丢失
一、下载数据为了速度快从百度网盘下载
链接:https://pan.baidu.com/s/1AHNPnkygn2SnFHdxT7h5cQ
提取码:wlds
二、使用脚本清洗拆分数据
脚本地址
链接:https://pan.baidu.com/s/1aqreMe3zEa_tFAq7PIaU1g
提取码:wlds
脚本说明:
step_mapper.py 拆分原始数据到两个文件夹中
step_reduce.py和step_reduce_rel.py 分别把两个文件夹的文件合并成两个文件entity.csv 和rel.csv ----分别存储实体和关系
先运行step_mapper.py 待完成后再分别运行step_reduce.py和step_reduce_rel.py 过程比较浪费时间需耐心等待
三、文件上传
把处理后的文件entity.csv和rel.csv上传到 neo4j 的import 文件夹下
四、导入
在neo4j 的bin目录下运行如下命令 其中ownthink.db 为数据库的名字可以自定义,其他参数不再赘述想请自己查询
./neo4j-admin import --mode csv --database ownthink.db --nodes:entity ../import/entity.csv --relationships ../import/rel.csv --ignore-extra-columns=true --ignore-missing-nodes=true --ignore-duplicate-nodes=true
五、写到最后:
如果你看完了文章才开始动手,那就对了。下边提供导入后的数据库压缩包,直接下载解压放在neo4j data/database 下修改neo4j.conf 中的数据库名,重启neo4j 就可以用了
链接:https://pan.baidu.com/s/1mUNJ9UXY9etvqS6ztgNTMQ
提取码:wlds