现在我们有一组从2006年到2016年1000部最流行的电影数据,
数据来源: https://www.kaggle.com/damianpanek/sunday-eda/data
在data文件夹存放有IMDB-Movie-Data.csv
文件,路径:path = '../data/IMDB-Movie-Data.csv'
- 问题:我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?
- #导入必要的库
- import pandas as pd
- #定位文件具体路径
- path = 'IMDB-Movie-Data.csv'
- df = pd.read_csv(path)
- df
- #查看文件前4条数据 df.head(4)
- #查看文件后4条数据 df.tail(4)
- display(df.shape,df.head(4),df.tail(4))
- #将Year设置为行索引
- df1 = df.index = df['Year']
- df1
- #删除'Metascore'列
- df2 = df.drop('Metascore',axis=1)
- df2
- #所有列的平均值
- df.mean()
- #取评分的平均值
- df3 = df.mean()['Rating']
- print('这些电影数据中评分的平均分是:%.1f分'%df3)
- # 使用drop_duplicates()方法去重
- df4 = df.drop_duplicates('Director',inplace=False)
- #计算导演人数
- print(len(df4))
或者如下: