python电影数据分析报告_Python进行电影数据分析及可视化

一、提出问题

作为一名业务分析师顾问,客户是一个电影制作新公司,他们将制作一部新电影。客户想确保电影能成功,从而使新公司立足市场。他们希望我能帮助他们了解电影市场趋势,使他们能做出正确的决策。他们提供了指导,希望我能研究以下三大领域:问题 1:电影类型是如何随着时间的推移发生变化的?

问题 2: Universal Pictures 和 Paramount Pictures 之间的对比情况如何?

问题 3: 改编电影和原创电影的对比情况如何?(通过keywords变量中的based on novel字段来判断)

更重要的是,客户请我根据提供的数据,额外回答第四个问题。

二、理解数据

1)获取数据

本次项目选用Movie Database,一个可以公开使用的电影数据。TMDB 5000 Movie Dataset​www.kaggle.com

2)导入数据

3)理解数据

moviedf数据集中,有20个字段,以下是每个字段的含义介绍:

● id:标识号

● imdb_id:IMDB 标识号

● popularity:在 Movie Database 上的相对页面查看次数

● budget:预算(美元)

● revenue:收入(美元)

● original_title:电影名称

● cast:演员列表,按 | 分隔,最多 5 名演员

● homepage:电影首页的 URL

● director:导演列表,按 | 分隔,最多 5 名导演

● tagline:电影的标语

● keywords:与电影相关的关键字,按 | 分隔,最多 5 个关键字

● overview:剧情摘要

● runtime:电影时长

● genres:风格列表,按 | 分隔,最多 5 种风格

● production_companies:制作公司列表,按 | 分隔,最多 5 家公司

● release_date:首次上映日期

● vote_count:评分次数

● vote_average:平均评分

● release_year:发行年份

● budget_adj:根据通货膨胀调整的预算(2010 年,美元)

● revenue_adj:根据通货膨胀调整的收入(2010 年,美元)

3)数据清洗

3.1选择子集

3.2缺失数据处理

3.3数据类型转换

3.4数据格式转换

4)数据分析及可视化

问题 一:电影类型是如何随着时间的推移发生变化的?

解决思路:

1、取出所有的电影类型

2、对电影涉及到的电影类型进行ONE-HOT编码,并生成按年份汇总的电影类型数据,同时汇总历年来各电影类型的总量并作图

3、对前5的电影类型数量进行时间走势分析

问题 二: Universal Pictures 和 Paramount Pictures 之间的对比情况如何?

解决思路

1、查看两家公司电影发行总数并做图分析

2、查看两家公司历年的电影发行数量,并比较分析

问题 三: 改编电影和原创电影的对比情况如何?

解决思路

1、查看改编和原创的电影数量

5)总结

5.1从历史数据来看,拍摄的电影风格类型最多的五种为:Drama、Comedy、Thriller、Action、Romance

5.2 Action、Comedy、Drama、Horror 和 Thriller 等五种类型的电影由少变多,1990年以后电影发行数量增长迅速。

5.3Universal Pictures 和 Paramount Pictures 两家公司在电影的发行数量分别为314,285,超出10%。

5.4从公司电影发行量时间走势上看,2005年以后Universal Pictures公司 一直比 Paramount Pictures公司发行的数量多,处于竞争优势。

5.5原创电影很少,仅占整个电影市场4%的份额。

6)不足之处

时间有限,分析的字段比较少,后续会把更多的字段加入,进行更全面的分析。

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值