【知识图谱可视化】实体抽取结果预处理，Neo4j数据导入（学习记录）

最新推荐文章于 2024-08-04 15:11:29 发布

WinniToast

最新推荐文章于 2024-08-04 15:11:29 发布

阅读量3.4k

点赞数 4

文章标签：知识图谱学习人工智能

本文链接：https://blog.csdn.net/awater_17/article/details/123139977

版权

本文介绍了知识图谱构建的过程，包括实体内容抽取和关系内容抽取。通过预处理实体数据，确定产品、景点、城市等为实体，并建立它们之间的关系。内容涉及统计实体个数、为实体编号、将实体和关系写入CSV文件，为后续导入Neo4j做准备。

摘要由CSDN通过智能技术生成

本篇内容：

实体抽取内容的初步数据处理
（之后会发关于导入neo4j数据库的相关内容）

初始数据：进行实体抽取之后的结果数据↓
（这里方便举例，只拿出了小部分数据。这里解释一下数据含义，最左边是每个旅游产品的ID，第二列表示的是旅游产品中包含的景点，第三列是途径城市，第四列是住宿地点。后边同理）
在这里插入图片描述
下面我们就正式开始！

1. 实体内容抽取

我们知道，图数据库的基本数据结构是“实体-关系-实体”。将这些原始数据构建成图网络，首先应该根据需要确定我们需要提取的实体和关系。

在这里，我们确定具体需求为：

每个产品作为一个实体；每一列中所有出现的景点、地点等名称都是实体
我们需要建立的关系是产品与Attraction、City…之间的关系，共六个。

（1）统计每个分类下总共出现的实体个数：
由于后边需要建立实体间的关系，我们在这里为每个实体都加入了编号。我们在这里借助字典完成，知识很基础，在这里就不赘述啦~

attra_e={
   }
city_e={
   }
accom_e={
   }
country_e={
   }
shop_e={
   }
trans_e={
   }
product_e={
   } #创建每个实体的字典

#字典函数
def set_dic(entity_name,dic_name,startBy):
    number = 1
    for i in df[entity_name]:
        a = pd.isnull(i)#判断单元格是否为空
        if a == False:
            i = i.split(';')<