项目案例
数据集介绍
这是一份好莱坞电影数据,有28个特征,五千多个样本,特征有电影时长、导演、票房、语言、评分等,样本中有缺失值,需要进行处理。
项目任务
- 查看票房收入统计
- 导演vs票房总收入
- 主演vs票房总收入
- 导演+主演vs票房收入
- 查看imdb评分统计
- 查看各imdb评分的电影个数
- 查看平均imdb评分最高的前20导演
- 电影产量年份趋势
- 电影类型分析
- 按题材分类,统计个数
- 按题材统计票房
涉及知识点
- pandas缺失值处理
- pandas分组、排序、统计
- pandas绘图
- pandas读取与输出
- DataFrame扩充
任务实现过程
-
读取并处理缺失值
import pandas as pd import matplotlib.pyplot as plt # 1.1、加载数据 data = pd.read_csv('movie_data.csv') print('数据的形状:', data.shape)
数据的形状: (5043, 28) color director_name num_critic_for_reviews duration \ 0 Color James Cameron 723.0 178.0 1 Color Gore Verbinski 302.0 169.0 2 Color Sam Mendes 602.0 148.0 3 Color Christopher Nolan 813.0 164.0 4 NaN Doug Walker NaN NaN director_facebook_likes actor_3_facebook_likes actor_2_name \ 0 0.0 855.0 Joel David Moore 1 563.0 1000.0 Orlando Bloom 2 0.0 161.0 Rory Kinnear 3 22000.0 23000.0 Christian Bale 4 131.0 NaN Rob Walker actor_1_facebook_likes gross