就在前天的一篇原创文章中,
7000字 23张图,Pandas一键生成炫酷的动态交互式图表
有粉丝问道,是不是写一篇关于数据预处理的文章,小编立马就答应了他的请求,那么今天我们就来讲讲数据预处理过程当中的一些要点与难点。我们大致会提到数据预处理中的
加载数据
处理缺失值如何处理
处理离散型数据该如何处理
数据的标准化
将数据集划分成训练集与测试集
去掉重复值
加载数据
我们导入必要的库并且加载数据
import pandas as pd
df = pd.read_csv("data.csv")
在进行数据分析前,可以查看一下数据的总体情况,从宏观上了解数据
data.head() #显示前五行数据
data.tail() #显示末尾五行数据
data.info() #查看各字段的信息
data.shape #查看数据集有几行几列,data.shape[0]是行数,data.shape[1]是列数
data.describe() #查看数据的大体情况,均值,最值,分位数值...
data.columns.tolist() #得到列名的list
处理缺失值
缺失值一直都是数据预处理当中比较常见的一个问题,而在处理类似的问题的时候,方式方法也是多种多样的,我们一一来介绍,
data = [['小明',25,55],['小红',28,60],['小王',26]]
df = pd.DataFrame(data=data,columns=['Name','Age','Weight'])
output
Name Age Weight
0 小明 25 55.0
1 小红 28 60.0
2 小王 26 NaN
针对上面的数据集,我们通过pandas
中的方法看一下缺失值的情况
df.isnull()
output
Name Age Weight
0 False False False
1 False False False
2 False False True
另外我们也可以这么来做,检测每一列空值的数量
df.isnull().sum()
output
Name 0
Age 0
Weight 1
dtype: int64
而在面对缺失值的时候,我们一方面可以将其去除