机器学习日志之数据预处理

最新推荐文章于 2023-05-21 16:23:30 发布

欣赏凌晨

最新推荐文章于 2023-05-21 16:23:30 发布

阅读量510

点赞数

分类专栏：机器学习日志文章标签：机器学习数据分析

本文链接：https://blog.csdn.net/qq_44944815/article/details/105400047

版权

机器学习日志专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在当今社会的潮流下，机器学习，深度学习等已经得到了深层次的运用，为了巩固学习效果，也方便寻找代码等，我将学习机器学习的一些感悟等进行总结。

数据预处理

1.我们需要引入两个库，numpy和pandas。

numpy包含数学计算，矩阵数组等。
pandas则用来导入，读取，管理数据。

import numpy as np
import pandas as pd

2.导入数据集

收据集一般是.csv的格式，以文本的形式保存数据，一行为记录的一个数据。我们使用pandas库导入读取文件数据。

dataset = pd.read_csv('Data.csv')//读取csv文件

3.将数据转化成矩阵形式

在后续的计算中，我们需要以矩阵或向量的形式来进行加工，预测等工作，故必须将数据转化成相应的格式。
我们使用dataset.iloc命令完成

X = dataset.iloc[ : , :3].values//读取其全部行，0至3列
Y = dataset.iloc[ 4 , 4].values  //读取第4行，第4列。

4.处理丢失的数据

数据可能因为各种原因而丢失，为了提高机器学习的准确性，我们需要对数据进行处理，我们可以使用平均值或中间值来代替。
我们将引入sklearn.preprocessing库中的imputer来完成任务。

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
imputer = imputer.fit(X[ : , 1:3])
X[ : , 1:3] = imputer.transform(X[ : , 1:3])

5.解析分类数据

我们需要将数据的文字类型，如yes或no，分类成数字类型，以供计算。
我们将引用sklearn.preprocessing库中的 LabelEncoder来完成工作。

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()
X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])

后创建虚拟变量

onehotencoder = OneHotEncoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()
labelencoder_Y = LabelEncoder()
Y =  labelencoder_Y.fit_transform(Y)

6.拆分数据集为训练集合和测试集合

将数据拆分成用于训练模型的数据集和用于验证对比的数据集。比例一般为80：20.我们将使用sklearn.cross_validation库中的train_test_split完成工作。

from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)

7.特征量化（特征缩放）

大部分的算法都使用两点间的欧氏距离来表示，但此特征有时变化很大，故我们可以对其进行特征标准化。

from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

欣赏凌晨

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习日志之数据预处理

在当今社会的潮流下，机器学习，深度学习等已经得到了深层次的运用，为了巩固学习效果，也方便寻找代码等，我将学习机器学习的一些感悟等进行总结。数据预处理1.我们需要引入两个库，numpy和pandas。numpy包含数学计算，矩阵数组等。pandas则用来导入，读取，管理数据。import numpy as npimport pandas as pd2.导入数据集收据集一般是.c...
复制链接

扫一扫