机器学习-001：数据预处理

phoenix1899

已于 2022-04-19 15:06:45 修改

阅读量115

点赞数

分类专栏：机器学习文章标签： python 机器学习

于 2022-04-19 15:05:00 首次发布

原文链接：https://github.com/MLEveryday/100-Days-Of-ML-Code/blob/master/Code/Day%201_Data_Preprocessing.md

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

机器学习001: 数据预处理

1、导入需要的库

import numpy as np
import pandas as pd

2、导入数据集

dataset1 = pd.read_csv('D:/Python/ml/data1.csv') ##读取csv文件
X = dataset1.iloc[ : , :-1].values 
Y = dataset1.iloc[ : , 3].values
print("X")
print(X)

知识点
1、.iloc[行，列]，: 全部行或列， [a] 第a行或列， [a,b,c] 第a、b、c行或列

3、处理丢失数据

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy="mean") 
imp = imputer.fit(X[ : ,1:3]) 
X[ : ,1:3] = imp.transform(X[ : ,1:3]) 
print("X")
print(X)

知识点
1、 missing_values 缺失值，strategy 填充策略，包括mean(平均数)、median（中位数）、most_frequent(众数)、constant(自定义常量)；
2、.fit 计算矩阵除缺失值之外的相关值的大小；
3、.transform 对缺失值进行填充。

4、解析分类数据，创建虚拟变量

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
from sklearn.compose import ColumnTransformer 
ct = ColumnTransformer([("", OneHotEncoder(),[0])], remainder = 'passthrough') 
X =ct.fit_transform(X)
labelencoder_Y = LabelEncoder()
Y = labelencoder_Y.fit_transform(Y)
print("X")
print(X)
print("Y")
print(Y)

知识点
1、LabelEncoder 和 OneHotEncoder均用于将类别数据进行数字化处理，LabelEncoder有序多数值，OneHotEncoder无序0和1；
2、ColumnTransform 数据转换函数，它允许将特定的转换序列仅应用于数字列，而将单独的转换序列应用于类别列；必须指定transformers参数（三元组：名称、对象、列）；
3、参数remainder用于确定当输入数据列数多于三元组中对象列数时采用的策略，默认值为drop表示舍弃，passthrough表示跳过不做转换。

5、数据拆分训练集测试集

from sklearn.model_selection import train_test_split 
X_train,X_test,Y_train,Y_test = train_test_split(X , Y , test_size = 0.3 ,random_state = 0)
print("-------------------------")
print("X_train")
print(X_train)
print("X_test")
print(X_test)
print("Y_train")
print(Y_train)
print("Y_test")
print(Y_test)

知识点
1、 train_test_split函数功能为从样本中随机的按比例抽取训练集数据和测试集数据；
2、train_test_split(train_data,train_target,test_size= , random_state=0)，
train_data 所要划分的样本特征集；train_target 所要划分的样本结果；test_size 样本占比，如果是整数则为样本的数量；random_state 随机数种子，控制每次划分训练集和测试集的模式，其取值不变时划分得到的结果一模一样，其值改变时，划分得到的结果不同。

6、特征量化

 from sklearn.preprocessing import StandardScaler 
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)
print("---------------------")
print("X_train")
print(X_train)
print("X_test")
print(X_test)