机器学习之数据预处理

最新推荐文章于 2024-05-10 09:22:41 发布

aidh123

最新推荐文章于 2024-05-10 09:22:41 发布

阅读量314

点赞数

分类专栏：人工智能之机器学习文章标签：数据预处理

本文链接：https://blog.csdn.net/weixin_40192195/article/details/88650658

版权

人工智能之机器学习专栏收录该内容

11 篇文章 3 订阅

订阅专栏

在这里插入图片描述

一. 导入需要的库
例如，科学计算的NumPy、数据处理的Pandas。画图的包matplotlib。
二. 导入数据集
使用pandas.read_csv读取csv文件。使用其他的方法读取不同类型的文档。
三. 处理数据的缺失值
我们可以使用缺失数据那一列的均值，或者是中位数、众数来进行替换，如何数据量大的情况下，也可以视情况来进行缺失数据的删除。
四. 特征归一化
样本的不同的特征之间的值可能会有较大的差距，所以为了确保模型的准确度，不能直接进行输入，可以将所有的特征值进行缩放到固定的区间内。例如0-1之间等。使用sklearn中的preprocessing中的StandardScalar类。
五.分类数据转换
将特征值中的分类数据进行LabelEncode转化，在进行OnehotEncode进行0-1虚拟变量转换。
六. 数据集划分
数据预处理完成后，进行数据集划分，将数据集按照一定的比例划分训练集和测试集。使用sklearn中train_test_split()方法。

代码：

import numpy as np
import pandas as pd
from sklearn.preprocessing import Imputer
from sklearn.preprocessing import LabelEncoder,OneHotEncoder,StandardScaler
from sklearn.model_selection import train_test_split

数据导入

data = pd.read_csv(‘Data.csv’,encoding=“utf-8”)
X = data.iloc[ : , : -1]
Y = data.iloc[ : , -1]

缺失值处理

imputer = Imputer( missing_values= ‘NaN’, strategy= ‘mean’ , axis = 0)
imputer = imputer.fit_transform(X[ : , 1:3])

分类数据转化

labelencoder_x = LabelEncoder()
X[ : , 0] = labelencoder_x.fit_transform(X[ : ,0])
onehot = OneHotEncoder(categorical_features=[0])
X = onehot.fit_transform(X).toarray()

labelencoder_y = LabelEncoder()
Y = labelencoder_y.fit_transform(Y)