作为统计的一员,用python来对数据做语出这一步骤是必需的,所以接下来就来总结一下python数据预处理的步骤吧,这里就不放数据了,直接上代码,代码后都有解释,有错误的尽管提出来哈。下面是流程图:
一、数据预览
import pandas as pd
import numpy as np
data=pd.read_csv('path',sep=',' ,header = 0,encoding='gbk',usecols=['col1','col2','col3'])#导入数据,把path改成文件路径;数据中有中文的话,就用encoding='gbk',没有中文的话就用encoding='utf-8';usecols是可以让我们选择哪几列
data.head()#查看前五行
data.info()#查看各字段的信息,其中包含行数、是否为空、字符类型
data.shape#查看数据集行列分布,几行几列
data.describe()#查看数据的描述性统计,其中包括总数、均值、标准方差、最小最大、第一四分位数、中位数
预览完数据后要检查是否有重复值。
d=0
for i in train.duplicated():
if i !=False:
d+=1
print("d:",d)
二、数据清洗
2.1 缺失值处理
data.isnull()#元素级别的判断,把对应的所有元素的位置都列出来,元素为空或者NA就显示True,否则就是False
data.isnull().any(axis=0)# 查看各列是否存在空值,True表示有空值,axis=0代表是查看列,axis=1是查看行是否存在控制
data.isnull().any(axis=0).sum()#计算含有空值的列数,若把axis=0改成axis=1,则是计算含有空值的行数
data['column_name'].isnull().sum()#将某一列中为空或者NA的个数统计出来,把column_name改成字段名
缺失值有三种常用的处理方法,分别