【数据分析与挖掘实战】数据探索篇

在这里插入图片描述

1.数据质量分析

在做数据分析和挖掘时,在获取数据后,一般第一步就是对数据进行探索性的分析,通过计算一些统计量或者绘制图表等方法来看数据特征。数据探索有利于后期的数据建模,本文从数据质量和数据特征两部分介绍数据探索的过程。码字不易,喜欢请点赞!!!

1.1缺失值分析

缺失值主要包括记录缺失属性值缺失产生原因可能是:

  • 信息无法获取,或获取成本太高
  • 信息遗漏
  • 属性值不存在

缺失值影响主要有:

  • 数据建模丢失大量有用信息
  • 数据建模不确定性增加,模型中规律更难把握
  • 包含空值的数据导致建模过程混乱,输出的可靠性降低

缺失值处理主要包括删除缺失值存在的记录缺失值插补以及不处理三种方法。缺失值处理的具体过程后面介绍数据预处理的时候再介绍。

1.2异常值分析

异常值也成为离群点,异常值对数据建模的影响非常大,因此需要先进行处理,一般会找到异常值后修正,无法修正的就剔除。异常值检验的三个方法:

  1. 简单统计量分析:通过对变量进行描述性统计,看看哪些数据不合理,比如年龄199岁这样的不合理数据。
  2. 3 σ \sigma σ原则:如果数据服从正态分布,则根据统计学知识可以知道,数据落在3 σ \sigma σ区间之内的概率为99.73%,如果数据在此之外,则是极小概率事件。若不服从正态分布,可以用远离平均值多少倍的标准差来描述。
  3. 箱型图分析:落在箱型图之外的数据称为离群点。箱型图分析具有更好的鲁棒性,因为多达25%的数据变异不会很大的扰动四分位数。下面代码展示了某餐饮销售数据(数据包括日期、销售额两列)绘制箱型图的一个过程:
import pandas as pd
import matplotlib.pyplot as plt
catering_sale = r"...\demo\data\catering_sale.xls"
data = pd.read_excel(catering_sale,index_col='日期&
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值