知识图谱的小demo
这是一个试图实现知识图谱的“微项目”,从头到尾的工作包括,从网上爬取格式化的数据,简单的数据处理,将数据存入图数据库中。
关于知识图谱构建技术的相关知识详见附带的《知识图谱构建技术综述》
嫌麻烦不想看论文可以简单看看徐阿衡的博客 http://www.shuang0420.com/2017/09/05/项目实战-知识图谱初探/ 补充一下理论知识
环境及工具
Win10
python 3.6.5
scrapy
scrapy_redis
redis
neo4j
目录及文件
当前目录为scrapy项目的根目录内,记为{SCRAPY_ROOT}
{SCRAPY_ROOT}\
| medicine_company_list.txt 公司编号代码文件
| neo4j_import.bat 将处理后的data目录下的数据文件导入neo4j数据库中
| neo4j_nodes_edges.py 将redis服务器中的数据处理后输出data目录下的三个文件
| scrapy.cfg srapy的配置文件
| spiders_entry.py 开始爬取数据的入口
| urls.py 保存几个爬取网页的url
| Crawlers scrapy的项目目录
| | ···
| data 保存从redis导出后输出的数据文件
| | company_nodes.neo4j 公司结点的数据
| | person_nodes.neo4j 个人结点的数据
| | management_edges.neo4j 公司和个人之间管理关系的数据
| graph_demo.db 导入neo