这是关于TMDB5000条电影数据的分析报告
数据来源于Kaggle https://www.kaggle.com/tmdb/tmdb-movie-metadata
报告分为:
(1)提出问题
(2)认识数据
(3)清洗数据
(4)分析数据
(5)总结
(一)提出问题
(1)对电影类型的分析,电影类型主要有哪些,哪些电影类型数量最多,电影类型随时间的变化,哪些电影的票房/利润多,观众更喜欢那种类型的电影
(2)电影票房与哪些因素相关,电影受欢迎程度的分析
(3)UniversalPictures和Paramount Pictures这两个公司产出电影的情况对比
(4)对电影导演,突出关键字,电影时长,电影产出地的情况进行分析
(5)原创电影和非原创电影的分析
(二)认识数据
从https://www.kaggle.com/tmdb/tmdb-movie-metadata 下载数据集
有tmdb_5000_credits.csv和tmdb_5000_movies.csv这两个数据集,描述电影演员相关信息和每部电影的基本信息
可以看出credits有4803行4列数据
可以看出movies有4803行20列数据
2.数据清洗
(1)格式转化
credits数据中,cast、crew都是json的格式,需要将演员、导演读取出来,以字符串格式显示
movies数据中genres、keywords、production_companies、spoken_languages也是json格式,需要转化成字符串
(a).credits json解析
(b).movies json解析
(2)合并数据
credits和movies中都有movie_id和title,检查这两个字段是否是相同的
可以看出这两个字段是相同的,将movies的title删掉
方法一&#x