机器学习（1）--- 数据预处理

最新推荐文章于 2024-03-28 16:22:08 发布

Deep,dark,fantasy

最新推荐文章于 2024-03-28 16:22:08 发布

阅读量1.4k

点赞数 4

分类专栏：机器学习文章标签：机器学习数据分析 python 数据挖掘人工智能

本文链接：https://blog.csdn.net/qq_43709590/article/details/115915236

版权

一、为什么需要数据预处理

数据预处理是在数据分析中必不可少的部分，它在数据分析工作中的地位就相当于做饭之前必须洗菜，将青菜上的细菌、病毒或其他不干净的东西洗净，将不新鲜的部分去除，只不过，作为数据分析人员，我们要清洗的是数据，将数据中的缺失值、重复值、以及其他异常值进行处理，将分类数据进行标准化，将不同数量级的数据进行特征缩放，这就是数据预处理应该做的工作。

二、python预处理模板

引入第三方库

import numpy as np
import pandas as pd
import matoplotlib as plt

导入数据集，划分自变量、因变量（非监督学习无需划分）

dataset = pd.read_csv('数据集保存路径')
X = dataset.iloc[:, :-1].values # 自变量
y = dataset.iloc[:, 3].values # 因变量
print(X) # 查看自变量中包含的数据
print(y) # 查看因变量中包含的数据

对缺失值进行均值填充

from sklearn.preprocessing import Imputer
# 创建Imputer对象
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
# 使用数据拟合对象
imputer = imputer.fit(X[:, 1:3])
X[:, 1

最低0.47元/天解锁文章

Deep,dark,fantasy

关注

4
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
机器学习（1）--- 数据预处理

一、为什么需要数据预处理数据预处理是在数据分析中必不可少的部分，它在数据分析工作中的地位就相当于做饭之前必须洗菜，将青菜上的细菌、病毒或其他不干净的东西洗净，将不新鲜的部分去除，只不过，作为数据分析人员，我们要清洗的是数据，将数据中的缺失值、重复值、以及其他异常值进行处理，将分类数据进行标准化，将不同数量级的数据进行特征缩放，这就是数据预处理应该做的工作。二、python预处理模板引入第三方库import numpy as npimport pandas as pdimport matop
复制链接

扫一扫