利用python进行数据预处理,不能离开pandas,我看过的教程在介绍数据预处理时的流程都是:numpy介绍、pandas介绍、数据预处理。
对于numpy和pandas,我的经验是不用刻意去记,知道他们分别是干嘛的(别人问到不至于说不出来),使用方法要有个印象,然后实际运用中有需要再去查就可以。
numpy:科学计算
pandas:基于numpy,非常适合于数据预处理。本案例的数据预处理思路:【重点】重复值、异常值、缺失值;【细节】格式清洗、数据提炼(在该案例中没有进一步数据提炼)。
1. 导入数据,并查看数据的基本情况:
import pandas as pd
data = pd.read_csv('./qunar_freetrip.csv', index_col=0)
print(data.shape) # 几行几列
print(data.info()) # 数据框信息
print(data.describe()) # 数据描述性统计,只统计数值型的变量
print(data.columns) # 返回数据框列名称数据框,输出的详细信息截图省略
从这一步的结果来看,可以初步判定:数据存在缺失值(总数据共5100条,但是出发地、目的地、价格、节省四个变量下数据量都小于5100)。
数据可能存在异常值(描述性统计中,价格最大值达到179500,不符合实际情况,需要后续标准分判断是否属于异常值)。
数据可能存在重复。
数据的列名有些存在空格,有些没有空格,需