Neo4j 实战篇（一）基于Py2Neo构建电影知识图谱

「已注销」

已于 2022-05-19 19:47:54 修改

阅读量2.7k

点赞数 4

分类专栏：项目实战3: 基于NoSQL的购物分析与推荐系统文章标签：知识图谱 python

于 2022-05-17 14:48:51 首次发布

本文链接：https://blog.csdn.net/Unirithe/article/details/124821426

版权

运行环境

windows11
JDK 8
anaconda3
python 3.9
Neo4j 3.5.32
python jupyter库
py2neo
Visual Studio Code 2022

项目地址：
Gitee : https://gitee.com/ccuni/py2neo-neo4j-actual-combat

GitHub:https://github.com/unirithe/py2neo-neo4j-actual-combat

一、数据集说明

数据集来自 IMDB 影视网的电影、演员数据，数据并不全，仅供学习参考。
数据集参考上方的 Gitee 或 GitHub地址

movie_act.csv 演员id到电影id的映射信息
movie_actor.csv 5334个演员的信息，名称和头像
movie_moive.csv 2926部电影的详情信息
movie_popularity.csv 保留着62部受欢迎的电影信息
user_user.csv 不知道有啥用的id信息

二、数据预处理

这里将原先的csv数据转为 pandas的DataFrame后再转化成字典，从而能构建Node对象，插入到Neo4j中

2.1 选择受欢迎的电影

list_mid = df['popularity']['movieid_id']

# 查找受欢迎的电影信息
# Find the movies which is popularity 
df_popularity_movie = df['movie'][df['movie']['movieid'].isin(list_mid)]
df_popularity_movie

在这里插入图片描述

# 将DataFrame格式转化为dict，到时候方便插入Neo4j
# make DataFrame to Dict, in order to insert neo4j
dict_movie = {
   }

for i in range(len(df_popularity_movie)):
    row = df_popularity_movie.iloc[i]
    dict_movie.update({
   row['movieid'] : row.to_dict()})
print('rows: ' , len(dict_movie))

在这里插入图片描述

2.2 查找每部受欢迎电影的所有演员

dict_actor_movie = {
   }
for mid in df_popularity_movie['movieid']:
    flag = df['actor_movie']['movieid_id'].eq(mid)
    actors = df['actor_movie'][flag]['actorid_id'].to_list()
    dict_actor_movie.update({
   mid : actors})
print('rows: ' , len(dict_actor_movie))

在这里插入图片描述

2.3 查找热门电影里每个演员的信息

dict_actor = {
   }
actors = set()
for ac in dict_actor_movie.values():
    for actor <

最低0.47元/天解锁文章

「已注销」

关注

4
点赞
踩
34

收藏

觉得还不错? 一键收藏
3
评论
Neo4j 实战篇（一）基于Py2Neo构建电影知识图谱

通过本次的尝试，我们使用py2neo进行了Neo4j的增删改查，熟悉使用 Node、Relationship、Graph，另外，还有大量的 pandas相关的操作。最终分析了影视电影和演员之间的关系，当然还有更多指标可以分析，比如：出现次数最多的演员以及电影、同步出现率最高的电影等等。
复制链接

扫一扫