一、 为什么需要数据预处理
数据预处理是在数据分析中必不可少的部分,它在数据分析工作中的地位就相当于做饭之前必须洗菜,将青菜上的细菌、病毒或其他不干净的东西洗净,将不新鲜的部分去除,只不过,作为数据分析人员,我们要清洗的是数据,将数据中的缺失值、重复值、以及其他异常值进行处理,将分类数据进行标准化,将不同数量级的数据进行特征缩放,这就是数据预处理应该做的工作。
二、python预处理模板
- 引入第三方库
import numpy as np
import pandas as pd
import matoplotlib as plt
- 导入数据集,划分自变量、因变量(非监督学习无需划分)
dataset = pd.read_csv('数据集保存路径')
X = dataset.iloc[:, :-1].values # 自变量
y = dataset.iloc[:, 3].values # 因变量
print(X) # 查看自变量中包含的数据
print(y) # 查看因变量中包含的数据
- 对缺失值进行均值填充
from sklearn.preprocessing import Imputer
# 创建Imputer对象
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
# 使用数据拟合对象
imputer = imputer.fit(X[:, 1:3])
X[:, 1