学习开源web知识图谱项目,爬取百度百科中文页面

本文介绍了一个开源项目,通过Python爬取百度百科的中文页面,利用正则表达式和XPath解析网页,抽取结构化信息,并存储到Neo4j知识图谱数据库中。项目涉及网络请求、网页解析、多线程和图数据库操作,适合知识图谱入门学习。
摘要由CSDN通过智能技术生成

github上找到的项目,感觉比较适合知识图谱入门

源码地址:https://github.com/lixiang0/WEB_KG

ubuntu环境(如果在windows下跑改下文件路径,我改了一下还是有点问题就没继续在windows环境下跑了):

  • python 3.6
  • requests:网络请求
  • re:url正则匹配
  • bs4:网页解析
  • pickle:进度保存
  • threading:多线程
  • neo4j:知识图谱图数据库
  • pip install neo4j-driver:neo4j python驱动

代码目录

  • spider/ 抓取原始网页
  • ie/ 从网页中解析正文,从正文中抽取结构化信息
  • kg/ 抽取三元組,存入neo4j数据库

代码执行顺序:

  • 1.spider目录下执行:python spider_main.py

爬取百度百科中文页面,以html格式保存在webpages文件夹下(这一步也许会因为某些原因(我猜是网络原因)提前结束,可以多执行几次这个命令)

  • 2.ie目录下执行:python extract-para.py  

github上拉取下的ie目录下没有info-para文件夹和info-table文件夹&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值