TMDB电影数据分析（上）

ZShiJ

已于 2024-05-07 18:09:42 修改

阅读量3.1k

点赞数 35

分类专栏：数据挖掘 Python 文章标签：数据分析数据挖掘

于 2024-01-18 09:00:00 首次发布

本文链接：https://blog.csdn.net/m0_53054984/article/details/135383959

版权

数据挖掘同时被 2 个专栏收录

46 篇文章

订阅专栏

Python

46 篇文章

订阅专栏

本文探讨了如何使用Kaggle的TMDB电影数据集分析影响电影票房的因素，包括数据集概述、数据清洗（删除无关字段和填充缺失值）、异常值检测和处理，以及对预算、类型等因素对票房的影响进行统计分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

🌟欢迎来到 我的博客 —— 探索技术的无限可能！

🌟博客的简介（文章目录）

TMDB电影数据分析（上）

本文对源自Kaggle TMDB电影数据集进行分析影响电影票房的因素，数据分析流程包含数据集概分析、数据清洗、数据统计以及分析影响电影票房的因素。影响票房因素可能是电影预算、电影类型、电影时长、受欢迎程度、电影评分，发行时间等有关系，通过具体数据进行分析影响票房的因素。

数据集分析

TDMB电影数据集包含大约 5000 部电影的相关数据。本次实验使用数据集中有关电影的数据表 tmdb_5000_movies.csv 进行数据分析。

该数据集的下载地址是https://www.kaggle.com/datasets/tmdb/tmdb-movie-metadata。

首先导入本次实验需要的使用的四个Python工具库，分别是numpy、pandas、matplotlib、seaborn。
在这里插入图片描述

接下来导入数据集，调用Pandas的read_csv()函数读取.csv类型的文件，以数据文件名’tmdb_5000_movies.csv’作为参数。read_csv函数生成一个DataFrame，而后赋值给movies变量。调用DataFrame的info()方法查看数据集的详细信息，包含数据行数、列数、列索引、每列数据的数据类型，数据存储等。在数据文件中，每一行数据是一条记录，每一列称为一个字段。
在这里插入图片描述

输出结果如下：
在这里插入图片描述

由结果可以看出，该数据集总共有20个字段，总共包含4803条记录，记录索引为0至4802。另外，统计了各个字段上非空值的数目及各个字段的数据类型，比如tagline字段非空值数目为3959，总数据量为4803，说明该字段含有空值。使用isnull()方法判断是否缺失，sum()方法统计缺失的数目。结果如下图所示。
在这里插入图片描述

下面针对数据集各字段进行解释：

数据字段展示表

字段名	字段解释	备注
budget	预算	以美元为单位存储
genres	类型	记录电影类型、风格
homepage	主页	记录电影链接
id	电影标识号
keywords	关键字	用于描述电影
original_language	原声语言
original_title	原标题
overview	概览	电影简介
popularity	受欢迎度
production_companies	制片公司
production_countries	国家
release_date	发行日期
revenue	电影收入
runtime	电影时长
spoken_languages	语言
status	电影状态
tagline	宣传语
title	标题
vote_average	评分
vote_count	评分次数

下面调用DataFrame的describe()查看给定数据样本的基本统计信息，包含budget、id、popularity、revenue、runtime、vote_average、vote_count字段，对每个数值类型的字段统计个数、平均值、标准差、最小值、四分之一分位点（25%）、四分之二分位点（50%）、四分之三分位点（75%）以及最大值。
在这里插入图片描述

上述结果表格中，budget、popularity、revenue、runtime、vote_average、vote_count列的最小值为0，对于budget、revenue、runtime中出现0是不符合常规的，认为这些是异常值，尤其revenue列25%处为0，说明revenue列中存在很多为0的值。

查看budget字段为0的记录使用query()方法进行筛选数据，并使用head()方法查看前几行数据，默认是查看前5行数据，head(2)表示查看前2行数据。movies数据集一共有20个字段，下面的输出结果中只列出前面10个。在Jupyter Notebook页面上，拖动下端的水平滚动条可以看到后面10个字段的内容。

在这里插入图片描述

数据清洗

经初步浏览数据集基本信息可以看出，数据集中存在缺失值现象，处理缺失值的常用方法有删除法、替换法、插入法。数据集中homepage、tagline字段中含有大量缺失值，考虑到这两个字段对不影响本次分析，可以直接删除这两个字段，同时删除其他与分析无关的字段。下面第一行代码调用DataFrame的drop()方法删除7个字段的数据，axis=1表示删除第二个维度上的数据，第二个维度代表列。参数inplace = True，表示直接将删除操作作用在数据集本身。第二行代码“movies.shape”查看数据集的行数和列数，返回一个元组，表示该数据集有4803条记录，每条记录有13个字段，也即行数是4803，列数是13。
在这里插入图片描述