学习笔记之《python数据分析与挖掘实战》第三章数据探索


在这里插入图片描述

欢迎购买正版书籍

豆瓣评价:Python数据分析与挖掘实战
作者: 张良均 / 王路 / 谭立云 / 苏剑林
出版社: 机械工业出版社

数据探索

数据探索有助于选择合适的数据预处理和建模方法,甚至可以完成一些通常有数据挖掘解决的问题

数据质量分析

数据预处理的前提

数据质量分析的主要任务是检察院数据是否有脏数据:
脏数据内容:

  • 缺失值
  • 异常值
  • 不一致的值
  • 重复数据及含有特殊符号的数据

缺失值分析

缺失值主要包括记录的确实和记录中某个字段信息的缺失

缺失值产生的原因
缺失值的影响
缺失值的分析

异常值分析

异常值分析师检验数据是否有录入错误以及含有不合理的数据。

异常值是指样本中的个别值,其数据明显偏离其他的观测值。异常值也称为离散点,异常值的分析也称为离散点分析。

  • 简单统计量分析
    常见统计量分析:最大值,最小值
  • 3δ原则
    如果数据服从正态分布,在3δ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值
  • 箱形图分析
    在这里插入图片描述
    所谓“鲁棒性”,是指控制系统在一定(结构,大小)的参数摄动下,维持其它某些性能的特性。
    所谓“稳定性”,是指控制系统在使它偏离平衡状态的扰动作用消失后,返回原来平衡状态的能力。
    稳定性是指系统受到瞬时扰动,扰动消失后系统回到原来状态的能力,而鲁棒性是指系统受到持续扰动能保持原来状态的能力

pandas中只需要读入数据后,使用describe()函数就可以查看数据的基本情况
例如:

import pandas as pd
catering_sale = 'catering_sale.xls' # 销售数据
# 读取数据,制定‘日期'列为索引列
data = pd.read_excel(catering_sale,index_col = u'日期')
data.head()

#describe()函数自动计算的字段有count(非空值数)、unique(唯一值数)、top(频数最高者)、freq(最高频数)
data.describe()

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
使用箱线图,检测餐饮销售额数据异常值,代码如下:

# 制作箱线图
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline 
catering_sale = './catering_sale.xls'
data = pd.read_excel(catering_sale, index_col=u'日期')
print(data.describe())
# 使用盒图来展示数据
plt.rcParams['font.sans-serif'] = ['SimHei']  # 中文字体设置
plt.rcParams['axes.unicode_minus'] = False #负号显示
# 画箱线图
plt.figure(figsize=
  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值