1-机器学习-数据预处理

最新推荐文章于 2023-07-01 20:19:20 发布

置顶居老师的迷妹

最新推荐文章于 2023-07-01 20:19:20 发布

阅读量191

点赞数

分类专栏：机器学习文章标签：机器学习数据预处理 Python

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、导入库

import numpy as np
import pandas as np

二、导入数据集

dataset=pd.read_csv('Data.csv')#见参考文献的第二个网址
#将特征和因变量分开
X=dataset.iloc[:,:-1].values #.iloc通过制定索引来对dataframe进行切片
Y=dataset.iloc[:,3].values

三、处理丢失数据

# 使用sklearn.preprocessing的IMputer来处理
from sklearn.preprocessing import Imputer
imputer=Imputer(missing_values='NaN',strategy="mean",axis=0)#取均值来代替缺失值
imputer=imputer.fit(X[:,1:3])
X[:,1:3]=imputer.transform(X[:,1:3])

四、分类数据编码

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
labelencoder_X=LabelEncoder()
X[:,0]=labelencoder_X.fit_transform(X[:,0])
'''将X[:,0]看做一个集和，去除多余的元素，得到标签值[France,Germany,Spain],然后用各个元素的在标签数组中的索引值替换X[:,0]中元素的对应值，[France,Spain,Germany,Spain,Germany,France,Spain,France,Germany,France]
即为[0,2,1,2,1,0,2,0,1,0]
''' 

# 创建哑变量
# 想对第一列虚拟数据进行编码处理，所以我们设定 categorical_features 中的 index＝0
onehotencoder=OneHotEncoder(categorical_features=[0])
X=onehotencoder.fit_transform(X).toarray()
labelencoder_Y=LabelEncoder()
Y=labelencoder_Y.fit_transform(Y)

五、划分测试集和训练集

from sklearn.cross_validation import train_test_split
X_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=0.2,random_state=0)

六、特征缩放

#对数据进行标准化
from sklearn.preprocessing import StandardScaler
sc_X=StandardScaler()
X_train=sc_X.fit_transform(X_train)
X_test=sc_X.fit_transform(X_test)