爱奇艺视频网站数据清洗整理和结论研究

'''
1、数据清洗 - 去除空值
'''
import numpy as np
import pandas as pd 

data = pd.read_csv('C:/Users/HP/Desktop/爱奇艺视频数据.csv',engine = 'python')

def data_cleaning(df):
    for col in df.columns:
        if df[col].dtype == 'object':
            df[col].fillna('缺失数据',inplace = True) #fillna方法填充缺失数据,注意inplace参数
        else:
            df[col].fillna(0,inplace = True)
    return (df)

data_c1 = data_cleaning(data)
data_c1.iloc[20:30]
'''
2、数据清洗 - 时间标签转化
'''
def date_cleaning(df,*cols):
    for col in cols:
        df[col] = df[col].str.replace('年','.')
        df[col] = df[col].str.replace('月','.')
        df[col] = df[col].str.replace('日','.')
        df[col] = pd.to_datetime(df[col]) # 需要将中文日期转化为非中文日期
    return (df)
data_c2 = date_cleaning(data_c1,'数据获取日期')
'''
3、 分析出不同导演电影的好评率,并筛选出TOP20
'''
df_dir = data_c2.groupby('导演').sum()[['好评数','评分人数']] #好评率 = 好评数 / 评分人数
df_dir['好评率'] = df_dir['好评数']/df_dir['评分人数']
df_dir = df_dir.sort_values('好评率',ascending = False)[:20]
print(df_dir)

执行结果:

                 好评数          评分人数       好评率
导演                                           
王静       5.601448e+06  5.602704e+06  0.999776
萧锋       4.415545e+07  4.416801e+07  0.999716
向灼       3.685386e+06  3.691240e+06  0.998414
乌兰塔娜     1.916524e+07  1.920091e+07  0.998142
徐宗政      3.113422e+06  3.123920e+06  0.996639
欧凡       3.088701e+06  3.100421e+06  0.996220
肖光辉      3.264290e+05  3.284140e+05  0.993956
张国立/罗长安  8.177111e+06  8.230880e+06  0.993467
刘逢声/林峰   3.591638e+06  3.617351e+06  0.992892
林添一      1.049628e+09  1.057556e+09  0.992504
毛尉光      1.747925e+06  1.7
  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值