python数据分析实例_python数据分析实例4-数据七十二变

436f66aa047026495370b5f109c7929d.png

现在我们有一组从2006年到2016年1000部最流行的电影数据,

数据来源: https://www.kaggle.com/damianpanek/sunday-eda/data

c8f2bddf037b33ee5743b45a6231a11e.png

在data文件夹存放有IMDB-Movie-Data.csv文件,路径:path = '../data/IMDB-Movie-Data.csv'

  • 问题:我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?

  • #导入必要的库
  • import pandas as pd
  • #定位文件具体路径
  • path = 'IMDB-Movie-Data.csv'
  • df = pd.read_csv(path)
  • df

dc5e012498fe3e13094c1e360a617213.png
  • #查看文件前4条数据 df.head(4)
  • #查看文件后4条数据 df.tail(4)
  • display(df.shape,df.head(4),df.tail(4))

58828a8429676c6274e8e1333981b533.png
  • #将Year设置为行索引
  • df1 = df.index = df['Year']
  • df1

ec6376c9432e6d243172e55d132cde67.png
  • #删除'Metascore'列
  • df2 = df.drop('Metascore',axis=1)
  • df2

80e87df2275d4dcc676916bbc550e38c.png
  • #所有列的平均值
  • df.mean()
  • #取评分的平均值
  • df3 = df.mean()['Rating']
  • print('这些电影数据中评分的平均分是:%.1f分'%df3)
  • # 使用drop_duplicates()方法去重
  • df4 = df.drop_duplicates('Director',inplace=False)
  • #计算导演人数
  • print(len(df4))

cd5306f818c3614d017d6f768f7a8814.png

或者如下:

9a0f68d469fc360e581bca2cfdc50a77.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值