github上找到的项目,感觉比较适合知识图谱入门
源码地址:https://github.com/lixiang0/WEB_KG
ubuntu环境(如果在windows下跑改下文件路径,我改了一下还是有点问题就没继续在windows环境下跑了):
- python 3.6
- requests:网络请求
- re:url正则匹配
- bs4:网页解析
- pickle:进度保存
- threading:多线程
- neo4j:知识图谱图数据库
- pip install neo4j-driver:neo4j python驱动
代码目录
- spider/ 抓取原始网页
- ie/ 从网页中解析正文,从正文中抽取结构化信息
- kg/ 抽取三元組,存入neo4j数据库
代码执行顺序:
- 1.spider目录下执行:python spider_main.py
爬取百度百科中文页面,以html格式保存在webpages文件夹下(这一步也许会因为某些原因(我猜是网络原因)提前结束,可以多执行几次这个命令)
- 2.ie目录下执行:python extract-para.py
github上拉取下的ie目录下没有info-para文件夹和info-table文件夹&#x