3 ---- pandas统计方法(pandas)

【问题1】pandas的常用统计方法
(1)评分的平均分
rating_mean = df['Rating'].mean()2)导演的人数
【方法1】
temp_list = df['Actors'].str.split(','.tolist()
all_temp_list = [i for j in temp_list for i in j]
nums = set(all_temp_list)
len(nums)
【方法2】
temp_list = df['Director'].unique()      # 自动生成列表,且列表里面无重复元素
len(temp_list)3)电影时长的最大值,最小值
max_runtime = df['Runtime (Minutes)'].max()
max_runtime_index = df['Runtime (Minutes)'].argmax()   # 返回最大值所在的位置(axis=1,行    axis=0,列)
min_runtime = df['Runtime (Minutes)'].min()
min_runtime_index = df['Runtime (Minutes)'].argmin()   # 返回最大值所在的位置(axis=1,行    axis=0,列)
runtime_median = df['Runtime (Minutes)'].median()
import pandas as pd



df = pd.read_csv('./code2/datasets_IMDB-Movie-Data.csv')
print(df.head(1))
print('*'*30)
print(df.info())




# (1)获取平均得分
print("\n【df['Rating']】")
print(df['Rating'])
print( df['Rating'].mean() )
print('**(1)**'*10)




# (2)导演的人数
'''
num_director = set( df['Director'].tolist() )
print(len(num_director))                 # 644
'''
print( len(df['Director'].unique()) )    # df['Director'].unique()---- 自动生成列表,且列表里面无重复元素----注意:列表list没有unique函数
print('**(2)**'*10)





# (3)获取演员的人数
temp_actor_list = df['Actors'].str.split(',').tolist()       
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值