1、数据预处理2(自定义数据)
1、数据预处理2
# 引入数据集
import pandas as pd
df=pd.read_excel('data.xlsx')
df
可以看到数据中存在NaN值。
划分特征和标签集
X=df.iloc[:,0:3].values
Y=df.iloc[:,3].values
1.1、处理缺失数据
对数据中可能出现的存在缺失值NaN的数据,我们可以通过取平均值(strategy=mean)的方式填充数据。
# 填充缺失数据
from sklearn.preprocessing import Imputer
imputer=Imputer(missing_values='NaN',strategy='mean',axis=0)
X[:,1:3]=imputer.fit_transform(X[:,1:3])
X
1.2、标签编码与独热编码
有些数据不是数值类型的,而有可能是字符类型或编