机器学习(1)--- 数据预处理

一、 为什么需要数据预处理

数据预处理是在数据分析中必不可少的部分,它在数据分析工作中的地位就相当于做饭之前必须洗菜,将青菜上的细菌、病毒或其他不干净的东西洗净,将不新鲜的部分去除,只不过,作为数据分析人员,我们要清洗的是数据,将数据中的缺失值、重复值、以及其他异常值进行处理,将分类数据进行标准化,将不同数量级的数据进行特征缩放,这就是数据预处理应该做的工作。

二、python预处理模板

  • 引入第三方库
import numpy as np
import pandas as pd
import matoplotlib as plt
  • 导入数据集,划分自变量、因变量(非监督学习无需划分)
dataset = pd.read_csv('数据集保存路径')
X = dataset.iloc[:, :-1].values # 自变量
y = dataset.iloc[:, 3].values # 因变量
print(X) # 查看自变量中包含的数据
print(y) # 查看因变量中包含的数据
  • 对缺失值进行均值填充
from sklearn.preprocessing import Imputer
# 创建Imputer对象
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
# 使用数据拟合对象
imputer = imputer.fit(X[:, 1:3])
X[:, 1
  • 4
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值