3.1 数据质量分析

本文节选自《Python数据分析与挖掘实战》3.1节,主要涉及数据质量分析,包括数据导入、编码问题及异常值检测。通过Python代码展示了如何处理GBK编码的Excel文件,以及如何识别和处理箱线图中的异常值。
摘要由CSDN通过智能技术生成

这是书籍《Python数据分析与挖掘实战》里面第3.1节的一些实践。

理论废话就不讲了,主要是程序代码、调试报错以及结果记录,附带一些心得。


首先说明,数据是书里面网站自带的。

http://pan.baidu.com/s/1kVK2M39 这是下载地址。密码要的请评论问。

首先看录入数据的代码:

#-*- coding:GBK -*-
import pandas as pd


catering_sale = 'data/catering_sale.xls' # 读取数据
data = pd.read_excel(catering_sale, index_col = u'日期') # 读取数据,指定“日期”列为索引列


print data.describe()


说明一下,这里编码改成 GBK 而不用 utf-8 主要是报错出注释里面 uft-8 是乱码,看着恶心。


对于初学者有个问题,就是

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值