TMDB电影数据分析(上)

🌟欢迎来到 我的博客 —— 探索技术的无限可能!


🌟博客的简介(文章目录)

TMDB电影数据分析(上)

      本文对源自Kaggle TMDB电影数据集进行分析影响电影票房的因素,数据分析流程包含数据集概分析、数据清洗、数据统计以及分析影响电影票房的因素。影响票房因素可能是电影预算、电影类型、电影时长、受欢迎程度、电影评分,发行时间等有关系,通过具体数据进行分析影响票房的因素。

数据集分析

      TDMB电影数据集包含大约 5000 部电影的相关数据。本次实验使用数据集中有关电影的数据表 tmdb_5000_movies.csv 进行数据分析。

      该数据集的下载地址是https://www.kaggle.com/datasets/tmdb/tmdb-movie-metadata

      首先导入本次实验需要的使用的四个Python工具库,分别是numpy、pandas、matplotlib、seaborn。
在这里插入图片描述

      接下来导入数据集,调用Pandas的read_csv()函数读取.csv类型的文件,以数据文件名’tmdb_5000_movies.csv’作为参数。read_csv函数生成一个DataFrame,而后赋值给movies变量。调用DataFrame的info()方法查看数据集的详细信息,包含数据行数、列数、列索引、每列数据的数据类型,数据存储等。在数据文件中,每一行数据是一条记录,每一列称为一个字段。
在这里插入图片描述

      输出结果如下:
在这里插入图片描述

      由结果可以看出,该数据集总共有20个字段,总共包含4803条记录,记录索引为0至4802。另外,统计了各个字段上非空值的数目及各个字段的数据类型,比如tagline字段非空值数目为3959,总数据量为4803,说明该字段含有空值。使用isnull()方法判断是否缺失,sum()方法统计缺失的数目。结果如下图所示。
在这里插入图片描述

      下面针对数据集各字段进行解释:

数据字段展示表
字段名字段解释备注
budget预算以美元为单位存储
genres类型记录电影类型、风格
homepage主页记录电影链接
id电影标识号
keywords关键字用于描述电影
original_language原声语言
original_title原标题
overview概览电影简介
popularity受欢迎度
production_companies制片公司
production_countries国家
release_date发行日期
revenue电影收入
runtime电影时长
spoken_languages语言
status电影状态
tagline宣传语
title标题
vote_average评分
vote_count评分次数

      下面调用DataFrame的describe()查看给定数据样本的基本统计信息,包含budget、id、popularity、revenue、runtime、vote_average、vote_count字段,对每个数值类型的字段统计个数、平均值、标准差、最小值、四分之一分位点(25%)、四分之二分位点(50%)、四分之三分位点(75%)以及最大值。
在这里插入图片描述

      上述结果表格中,budget、popularity、revenue、runtime、vote_average、vote_count列的最小值为0,对于budget、revenue、runtime中出现0是不符合常规的,认为这些是异常值,尤其revenue列25%处为0,说明revenue列中存在很多为0的值。

      查看budget字段为0的记录使用query()方法进行筛选数据,并使用head()方法查看前几行数据,默认是查看前5行数据,head(2)表示查看前2行数据。movies数据集一共有20个字段,下面的输出结果中只列出前面10个。在Jupyter Notebook页面上,拖动下端的水平滚动条可以看到后面10个字段的内容。

在这里插入图片描述

数据清洗

      经初步浏览数据集基本信息可以看出,数据集中存在缺失值现象,处理缺失值的常用方法有删除法、替换法、插入法。数据集中homepage、tagline字段中含有大量缺失值,考虑到这两个字段对不影响本次分析,可以直接删除这两个字段,同时删除其他与分析无关的字段。下面第一行代码调用DataFrame的drop()方法删除7个字段的数据,axis=1表示删除第二个维度上的数据,第二个维度代表列。参数inplace = True,表示直接将删除操作作用在数据集本身。第二行代码“movies.shape”查看数据集的行数和列数,返回一个元组,表示该数据集有4803条记录,每条记录有13个字段,也即行数是4803,列数是13。
在这里插入图片描述

      对于release_date、runtime这两个字段缺失值较少,可以使用指定数据进行手动填充缺失值,也可以直接删除含有缺失值的记录。

      删除含缺失值的记录(即一整行)的操作如下:
在这里插入图片描述

      数据集中可能存在某些记录重复,使用drop_duplicates()方法去掉重复记录,操作如下:
在这里插入图片描述

      keep参数为’first’,表示保留第一次出现的重复行,删除后面的重复行。

      另外,异常值存在对数据分析干扰很大,异常值过多,对分析结果产生不良影响,导致分析结果出现偏差甚至错误,统计各字段中异常值数目,操作如下:
在这里插入图片描述

      在数据量充足情况下,可以删除异常值所在记录,操作如下:
在这里插入图片描述

      上述代码调用movies.query()方法查找出budget、revenue字段中异常值所在记录并获取相应索引,使用drop()方法删除指定索引的记录后,数据集中样本数据还有3229条记录。再次查看数据集各字段基本统计信息,数据相对正常。

在这里插入图片描述

数据统计以及分析影响电影票房的因素

TMDB电影数据分析(下)

  • 30
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
TMDB5000数据分析案例是一个基于TMDB电影数据库的数据分析项目。该项目旨在从TMDB数据库中提取电影信息,并通过对数据进行分析和可视化,揭示电影行业的趋势和模式。 在这个案例中,我们可以使用Python编程语言和相关数据分析工具来处理和分析TMDB5000数据。首先,我们需要导入数据集并了解其中的字段和特征。例如,数据集包含电影的标题、类型、导演、演员、预算、收入、评分等信息。 接下来,我们可以利用数据分析工具,比如pandas和matplotlib,对数据集进行处理和可视化。例如,我们可以通过对电影类型频次进行分析,了解哪种类型的电影最受欢迎。我们还可以分析预算和收入之间的关系,以及评分和收入之间的关系,以揭示电影制作的经济和质量的关联性。 除了这些基本的数据分析任务,我们还可以进一步探索数据集,寻找更深入的见解和趋势。例如,我们可以分析不同国家和地区电影的产量和市场份额,以及电影发展随时间的变化。我们还可以使用机器学习算法,如聚类分析和预测模型,对电影的成功因素进行建模和预测。 总的来说,TMDB5000数据分析案例提供了一个丰富的电影信息资源,通过对数据的分析和挖掘,可以揭示电影行业中的潜在模式和趋势。这种数据分析的应用不仅可以帮助电影制片人和投资者做出更明智的决策,还可以为观众提供更好的电影推荐和体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ZShiJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值