数据探索
1.数据质量分析
在做数据分析和挖掘时,在获取数据后,一般第一步就是对数据进行探索性的分析,通过计算一些统计量或者绘制图表等方法来看数据特征。数据探索有利于后期的数据建模,本文从数据质量和数据特征两部分介绍数据探索的过程。码字不易,喜欢请点赞!!!
1.1缺失值分析
缺失值主要包括记录缺失和属性值缺失,产生原因可能是:
- 信息无法获取,或获取成本太高
- 信息遗漏
- 属性值不存在
缺失值影响主要有:
- 数据建模丢失大量有用信息
- 数据建模不确定性增加,模型中规律更难把握
- 包含空值的数据导致建模过程混乱,输出的可靠性降低
缺失值处理主要包括删除缺失值存在的记录和缺失值插补以及不处理三种方法。缺失值处理的具体过程后面介绍数据预处理的时候再介绍。
1.2异常值分析
异常值也成为离群点,异常值对数据建模的影响非常大,因此需要先进行处理,一般会找到异常值后修正,无法修正的就剔除。异常值检验的三个方法:
- 简单统计量分析:通过对变量进行描述性统计,看看哪些数据不合理,比如年龄199岁这样的不合理数据。
- 3 σ \sigma σ原则:如果数据服从正态分布,则根据统计学知识可以知道,数据落在3 σ \sigma σ区间之内的概率为99.73%,如果数据在此之外,则是极小概率事件。若不服从正态分布,可以用远离平均值多少倍的标准差来描述。
- 箱型图分析:落在箱型图之外的数据称为离群点。箱型图分析具有更好的鲁棒性,因为多达25%的数据变异不会很大的扰动四分位数。下面代码展示了某餐饮销售数据(数据包括日期、销售额两列)绘制箱型图的一个过程:
import pandas as pd
import matplotlib.pyplot as plt
catering_sale = r"...\demo\data\catering_sale.xls"
data = pd.read_excel(catering_sale,index_col='日期&