利用python中的pandas和matplotlib进行电影数据分析

项目案例

数据集介绍

电影数据集百度云链接 提取码: 4anq

这是一份好莱坞电影数据,有28个特征,五千多个样本,特征有电影时长、导演、票房、语言、评分等,样本中有缺失值,需要进行处理。

项目任务
  • 查看票房收入统计
    • 导演vs票房总收入
    • 主演vs票房总收入
    • 导演+主演vs票房收入
  • 查看imdb评分统计
    • 查看各imdb评分的电影个数
    • 查看平均imdb评分最高的前20导演
  • 电影产量年份趋势
  • 电影类型分析
    • 按题材分类,统计个数
    • 按题材统计票房
涉及知识点
  • pandas缺失值处理
  • pandas分组、排序、统计
  • pandas绘图
  • pandas读取与输出
  • DataFrame扩充
任务实现过程
  1. 读取并处理缺失值

    import pandas as pd
    import matplotlib.pyplot as plt
    # 1.1、加载数据
    data = pd.read_csv('movie_data.csv')
    print('数据的形状:', data.shape)
    
    数据的形状: (5043, 28)
       color      director_name  num_critic_for_reviews  duration  \
    0  Color      James Cameron                   723.0     178.0   
    1  Color     Gore Verbinski                   302.0     169.0   
    2  Color         Sam Mendes                   602.0     148.0   
    3  Color  Christopher Nolan                   813.0     164.0   
    4    NaN        Doug Walker                     NaN       NaN   
    
       director_facebook_likes  actor_3_facebook_likes      actor_2_name  \
    0                      0.0                   855.0  Joel David Moore   
    1                    563.0                  1000.0     Orlando Bloom   
    2                      0.0                   161.0      Rory Kinnear   
    3                  22000.0                 23000.0    Christian Bale   
    4                    131.0                     NaN        Rob Walker   
    
       actor_1_facebook_likes        gross                 
  • 4
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值