学习开源web知识图谱项目，爬取百度百科中文页面

最新推荐文章于 2022-12-09 17:28:09 发布

yeva_o

最新推荐文章于 2022-12-09 17:28:09 发布

阅读量779

点赞数 1

分类专栏：项目记录文章标签：知识图谱

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Evaooooes/article/details/88712549

版权

本文介绍了一个开源项目，通过Python爬取百度百科的中文页面，利用正则表达式和XPath解析网页，抽取结构化信息，并存储到Neo4j知识图谱数据库中。项目涉及网络请求、网页解析、多线程和图数据库操作，适合知识图谱入门学习。

摘要由CSDN通过智能技术生成

github上找到的项目，感觉比较适合知识图谱入门

源码地址：https://github.com/lixiang0/WEB_KG

ubuntu环境(如果在windows下跑改下文件路径，我改了一下还是有点问题就没继续在windows环境下跑了）：

python 3.6
requests:网络请求
re:url正则匹配
bs4:网页解析
pickle:进度保存
threading:多线程
neo4j:知识图谱图数据库
pip install neo4j-driver：neo4j python驱动

代码目录

spider/ 抓取原始网页
ie/ 从网页中解析正文，从正文中抽取结构化信息
kg/ 抽取三元組，存入neo4j数据库

代码执行顺序：

1.spider目录下执行：python spider_main.py

爬取百度百科中文页面，以html格式保存在webpages文件夹下（这一步也许会因为某些原因（我猜是网络原因）提前结束，可以多执行几次这个命令）

2.ie目录下执行：python extract-para.py

github上拉取下的ie目录下没有info-para文件夹和info-table文件夹&#x

最低0.47元/天解锁文章

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。