【数据分析】Python :视频网站数据清洗整理和结论研究

本文探讨了如何使用Python进行视频网站数据的清洗,包括填充空值、转化时间标签,以及进行统计分析。重点分析了不同导演电影的好评率和2001-2016年每年的评影人数总量,通过图表可视化揭示数据变化规律,并通过箱型图检测异常值。
摘要由CSDN通过智能技术生成

视频网站数据清洗整理和结论研究

要求:
1、数据清洗 - 去除空值

  • 要求:创建函数
  • 提示:fillna方法填充缺失数据,注意inplace参数

2、数据清洗 - 时间标签转化

  • 要求:
    ① 将时间字段改为时间标签
    ② 创建函数
  • 提示:
    需要将中文日期转化为非中文日期,例如 2016年5月24日 → 2016.5.24

3、问题1 分析出不同导演电影的好评率,并筛选出TOP20

  • 要求:
    ① 计算统计出不同导演的好评率,不要求创建函数
    ② 通过多系列柱状图,做图表可视化
  • 提示:
    ① 好评率 = 好评数 / 评分人数
    ② 可自己设定图表风格

4、问题2 统计分析2001-2016年每年评影人数总量

  • 要求:
    ① 计算统计出2001-2016年每年评影人数总量,不要求创建函数
    ② 通过面积图,做图表可视化,分析每年人数总量变化规律
    ③ 验证是否有异常值(极度异常)
    ④ 创建函数分析出数据外限最大最小值)
    ⑤ 筛选查看异常值 → 是否异常值就是每年的热门电影?
  • 提示:
    ① 通过箱型图验证异常值情况
    ② 通过quantile(q=0.5)方法,得到四分位数
    ③ IQR=Q3-Q1
    ④ 外限:最大值区间Q3+3IQR,最小值区间Q1-3IQR (IQR=Q3-Q1)
    ⑤ 可自己设定图表风格

一 导入python包

import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
% matplotlib inline

二 数据读取

data = pd.read_csv('C:/Users/Hjx/Desktop/爱奇艺视频数据.csv', engine = 'python')
print(data.head())

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值