python数据探索

本文介绍了Python在数据探索中的关键步骤,包括数据质量分析、异常值处理和统计量分析。详细探讨了如何处理缺失值、使用3Q原则和箱线图识别异常值,并展示了如何运用Pandas进行数据统计和绘图,如相关性分析、累计统计特征函数和各种图表的绘制。
摘要由CSDN通过智能技术生成

第三章 数据探索

3.1 数据质量分析
脏数据包括:缺失值;异常值;不一致的值;重复数据及含有特殊符号的数据;
1.缺失值处理
统计缺失率,缺失数
2.异常值处理
(1)简单统计量分析
(2)3Q原则
正态分布情况下,小概率事件为异常值
不服从正太分布的,可以用原离平均值多少倍标准差来分析
(3)箱线图分析
使用describe()描述

import pandas as pd

catering_sale='catering_sale.xls'
data=pd.read_excel(catering_sale,index_col=u'日期')
print data
des=data.describe()
print des

运行结果:
这里写图片描述
这里写图片描述
这里写图片描述
箱线图

import pandas as pd
from matplotlib.font_manager import FontProperties

catering_sale='catering_sale.xls'
data=pd.read_excel(catering_sale,index_col=u'日期')

import matplotlib.pyplot as plt
print plt
myfont = FontProperties(fname='/usr/share/fonts/wqy-zenhei/wqy-zenhei.ttc')
plt.rcParams['axes.unicode_minus']=False

plt.figure()
p=data.boxplot(return_type = 'dict')
x = p['fliers'][0].get_xdata() # 'flies'即为异常值的标签
y = p['fliers'][0].get_ydata()
y.sort()

for i in range(len(x)):
    if i>0:
        plt.annotate(y[i],xy=(x[i],y[i]),xytext=(x[i]+0.05-0.8/(y[i]-y[i-1]),y[i]))
    else:
        plt.annotate(y[i],xy=(x[i],y[i]),xytext=(x[i]+0.08,y[i]))
plt.savefig("/home/python/syy/images/pic1.png")

运行结果:

报错1.x = p[‘fliers’][0].get_xdata() # ‘flies’即为异常值的标签 y =
p[‘fliers’][0].get_ydata() 解决: p=data.boxplot(return_type = ‘dict’)

这里写图片描述
3.2 统计量分析
统计量

from __future__ import print_function
import pandas as pd

catering_sale = 'catering_sale.xls' #餐饮数据
data = pd.read_excel(catering_sale, index_col = u'日期') #读取数据,指定“日期”列为索引列
data = data[(dat
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值