利用python中的pandas和matplotlib进行电影数据分析

最新推荐文章于 2024-06-15 00:34:10 发布

华夏_数据分析

最新推荐文章于 2024-06-15 00:34:10 发布

阅读量3.8k

点赞数 4

分类专栏：数据分析项目文章标签： python pandas matplotlib 数据分析

本文链接：https://blog.csdn.net/FDFCJBAFSA/article/details/97127423

版权

项目案例

数据集介绍

电影数据集百度云链接提取码: 4anq

这是一份好莱坞电影数据，有28个特征，五千多个样本，特征有电影时长、导演、票房、语言、评分等，样本中有缺失值，需要进行处理。

项目任务

查看票房收入统计
- 导演vs票房总收入
- 主演vs票房总收入
- 导演+主演vs票房收入

查看imdb评分统计
- 查看各imdb评分的电影个数
- 查看平均imdb评分最高的前20导演

电影产量年份趋势
电影类型分析
- 按题材分类，统计个数
- 按题材统计票房

涉及知识点

pandas缺失值处理
pandas分组、排序、统计
pandas绘图
pandas读取与输出
DataFrame扩充

任务实现过程

读取并处理缺失值

import pandas as pd
import matplotlib.pyplot as plt
# 1.1、加载数据
data = pd.read_csv('movie_data.csv')
print('数据的形状：', data.shape)

数据的形状： (5043, 28)
   color      director_name  num_critic_for_reviews  duration  \
0  Color      James Cameron                   723.0     178.0   
1  Color     Gore Verbinski                   302.0     169.0   
2  Color         Sam Mendes                   602.0     148.0   
3  Color  Christopher Nolan                   813.0     164.0   
4    NaN        Doug Walker                     NaN       NaN   

   director_facebook_likes  actor_3_facebook_likes      actor_2_name  \
0                      0.0                   855.0  Joel David Moore   
1                    563.0                  1000.0     Orlando Bloom   
2                      0.0                   161.0      Rory Kinnear   
3                  22000.0                 23000.0    Christian Bale   
4                    131.0                     NaN        Rob Walker   

   actor_1_facebook_likes        gross

最低0.47元/天解锁文章

华夏_数据分析

关注

4
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
利用python中的pandas和matplotlib进行电影数据分析

项目案例数据集介绍这是一份好莱坞电影数据，有28个特征，五千多个样本，特征有电影时长、导演、票房、语言、评分等，样本中有缺失值，需要进行处理。项目任务查看票房收入统计卡的上的考虑...
复制链接

扫一扫

专栏目录