TMDB电影数据分析(下)

文章详细分析了KaggleTMDB电影数据集,探讨了影响电影票房的关键因素,如预算、类型、年份、评分等,并通过数据统计和可视化来揭示这些因素与票房之间的关系。
摘要由CSDN通过智能技术生成

TMDB电影数据分析(下)

      本文对源自Kaggle TMDB电影数据集进行分析影响电影票房的因素,数据分析流程包含数据集概分析、数据清洗、数据统计以及分析影响电影票房的因素。影响票房因素可能是电影预算、电影类型、电影时长、受欢迎程度、电影评分,发行时间等有关系,通过具体数据进行分析影响票房的因素。

数据集概分析 以及 数据清洗

接上文TMDB电影数据分析(上)

数据统计

1、查看收入前十的电影信息

      初步猜测影响电影收入的因素是电影预算,电影类型,上映年份,电影时长,评分,参与评分次数,受欢迎程度等。下面我们找出电影收入最高的前十部电影的基本信息。
在这里插入图片描述

2、计算收入与其他字段相关系数

      第一行代码在原数据集中增加一个release_year字段,数据集中提供了电影上映日期,但release_data字段值的数据类型不是日期类型,使用DataFrame的to_datatime()函数将指定格式转为日期格式,使用year属性获取日期中的年份作为新增字段的值。为了验证猜测,第二行代码中调用DataFrame的corr()函数计算budget、release_year、runtime、popularity、vote_average、vote_count等字段与revenue(电影收入)字段的相关性,获取发现revenue字段与budget、popularity及vote_count字段相关系数分别为0.70、0.60及0.76,具有高相关性,revenue字段与runtime、release_year、vote_average字段相关系数分别为0.23、0.14、0.18,具有低相关性。
在这里插入图片描述

3、查看电影年份分布

      首先调用DataFrame中的value_counts()方法对release_year字段值进行频数统计,得出各个年度发行的电影数量,数据集中电影发行年份自1916年起,包含89个年份的电影信息。
在这里插入图片描述

      通过绘制直方图直观看出电影在各年度的分布情况,如下图所示。
在这里插入图片描述

      从图中可以看出,电影发行年份集中在2000-2016年之间。

4、查看电影时长分布

      统计不同时长电影的数量,通过数据可以看出数据集中记录的电影时长总共有136个以及不同时长电影的数量。

      通过直方图可以直观看出电影时长集中分布在80-130之间,其中时长在90-110的电影数量占比较大。
在这里插入图片描述

5、查看预算分布

在这里插入图片描述

      数据集中低预算电影占比较大,预算集中在0至0.5x108

6、查看评分分布

在这里插入图片描述

      电影的评分集中分布在5-7分

7、查看评论次数分布

在这里插入图片描述

      数据集中绝大多数电影评论次数低于2000,其中评论次数在500以内评论次数占比最大。

影响收入的因素分析

1、绘制电影收入与影响因子散点图

      效果如下图所示;

在这里插入图片描述

2、分组分析电影收入与影响因子的关系

      由于电影发行时间集中在2000年以后,为了更好研究影响电影票房的因素,我们针对2001年至2015年发布的电影数据做进一步分析。

      首先,提取出发行年份在2001年至2015年的所有电影,保存到movies中,筛选后数据还有2103条记录。
在这里插入图片描述

      电影中数据记录了2001至2015总共15年的电影数据,时间跨度可能会相对大一些,按照年份进行分组,以每5年作为一组,将电影数据分成三组,针对每一组数据分析影响电影票房的因素。
在这里插入图片描述

      接下来,使用cut()方法将电影票房按照四分位点划分为四个等级,分别为’Low’, ‘Medium’, ‘Moderately High’, ‘High’,也即“低”、“中下”、“中上”和“高”。
在这里插入图片描述

      划分等级后,按照revenueclass、 fiveyearclass字段对数据进行分组,取出各组数据的中位数,保存到变量d_summary中。
在这里插入图片描述

      按年份分组后,得到三组数据,分别为‘2001-2005年’,‘2006-2010年’,‘2011-2015年’,针对每一组数据进行分析,随着收入越高,对应的预算越高,受欢迎程度越高,评论次数越多,电影时长、评分情况表现不明显。下面通过绘制条形图可以更直观的显示影响收入的因素。

      下面代码调用matplotlib.pyplot模块中bar()函数绘制电影收入与预算、受欢迎度、评论次数、评分、时长、发行年份之间关系的条形图。

在这里插入图片描述

      上图中含有6幅图,图中横坐标表示收入等级,纵坐标表示影响因素,针对每一幅图,同一收入等级中有三根柱子,从左向右以此表示为第一个5年数据,即2001至2005年电影数据,第二个5年数据,即2006至2010年电影数据,第三个5年数据,即2011至2015年电影数据。第一行分别绘制收入与预算条形图、收入与受欢迎程度条形图、收入与评论次数条形图。从收入与受欢迎程度图像可以看出,三组5年数据,每一组数据均是当电影票房高时,对应受欢迎程度也高,当收入处于同一个等级时,随着时间的推移,电影受欢迎程度略微增高,可能电影受欢迎层度受时间影响,间接影响着电影票房。

      针对收入与预算条形图,对于每一组年份,预算对票房的影响比较明显,收入高的电影,对应预算也高,即随着预算增加,电影票房也增加。说明投资方在制片质量上具有保障性,外加对影片宣传力度大,使票房得以提高。另外,针对收入等级相同时,预算投入与时间没有直接关系,说明不会因为当时时代背景而影响电影预算投入。

      针对收入与评论次数条形图,电影票房受评论次数影响比较大,参与评论的次数多的电影,电影票房高。

      第二行分别绘制收入与评分条形图、收入与时长条形图、收入与年份条形图。从这三幅条形图可以看出,电影收入与电影评分、电影时长、电影发行年份的关联度不明显。说明评分高低、时长长短及上映年份与电影收入无关。

3、分析电影类型对电影收入的影响

      由于每一部电影类型可以兼有多种类型,数据集中genres字段值是以字典数据类型给出。定义一个counttype函数,以数据集作为参数,使用for循环遍历genres字段数据,函数返回值为以电影类型为键,电影类型数量为值构成键值对的字典。
在这里插入图片描述

      针对数据集数据统计各种类型电影数量,将统计结果绘制成条形图,可以更直观查看不同类型电影数量,发现Drama、Comedy是占比最多的。

在这里插入图片描述

      按照受欢迎程度进行排序,提取最受欢迎前100部电影。并统计最受欢迎的100部电影不同类型占比。由于每一部电影类型可以兼有多种类型,数据集中genres字段值是以字典数据类型给出。使用for循环遍历genres字段数据,并以电影类型为键,电影数目为值构成的键值对作为元素存储到moviestype字典中,得到最受欢迎前100部电影不同类型的数量。
在这里插入图片描述

在这里插入图片描述

      100部最受欢迎电影中,其中Adventure类型和Action类型占比较高。猜测Adventure类型和Action类型是最受欢迎的两类电影,电影类型会影响电影受欢迎程度。

      针对不同收入等级统计电影类型出现频数,并提取频数最多的前5种类型电影,绘制条形图,效果如下:

在这里插入图片描述

      Action、Adventure、Drama、Comedy、Thriller等类型电影在收入不同等级中占比都很高,考虑到Drama、Comedy在整体电影类型占比中基数比较大,可以猜测电影类型对电影票房具有一定影响,但影响不明显。电影票房可能与影片质量本身有密切关系。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值